並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 168件

新着順 人気順

音声入力の検索結果1 - 40 件 / 168件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

音声入力に関するエントリは168件あります。 AI人工知能文章 などが関連タグです。 人気エントリには 『音声入力と生成AIの組み合わせが強すぎて、一人でブツブツ喋るオジサンとなった - 本しゃぶり』などがあります。
  • 音声入力と生成AIの組み合わせが強すぎて、一人でブツブツ喋るオジサンとなった - 本しゃぶり

    なぜオジサンは一人でブツブツと喋るのか。 それは、音声入力こそが最強のプロンプトを生み出すからである。 両手をキーボードから解放する時が来た。 忙しい人向けの説明 さっそくChatGPTを開き、iOSのマイクから音声入力を起動したら、 これを使って入力 「本しゃぶりというブログにChatGPTの使い方について、面白そうな記事があったのでメモ。なんか音声入力を使うといいらしい。これまで話した内容について整理し、マークダウンで出力して」 と喋っておこう。誤字脱字などの修正をせずに投稿すればいい。 以上。 音声入力と生成AIの組み合わせが強い 生成AIをうまく使いたいならば、詳細なコンテキストを与えるのが良い。しかし、ここに大きな問題があった。 人間というものは楽をしたがる生き物である。特にAIに助けを求めるような人は、なおさらだ。文章を入力することに面倒くささを感じ、つい最小限の指示で済ませて

      音声入力と生成AIの組み合わせが強すぎて、一人でブツブツ喋るオジサンとなった - 本しゃぶり
    • 生成AI時代の音声入力ツール:SuperWhisperのすすめ - うみのーと

      はじめに honeshabri.hatenablog.com 骨しゃぶりさんのブログで音声入力が激推しされていて、自分も普段から音声入力を使っているので、その使い方にとても共感できたし嬉しかったです。普通に音声入力がもっと流行ってほしいなと思います。 骨しゃぶりさんのブログ記事に触発されたのもあり、僕も音声入力について記事を書いてみました。この記事では自分のおすすめ音声入力ツールとその活用法を紹介したいと思います。 SuperWhisperのすすめ Whisperという音声認識モデルをご存知の方は多いと思います。これはTransformerベースの音声認識モデルで、OpenAIからOSSとして公開されています。特徴としては従来の音声認識と比べて、聞き間違いや聞き逃しが少なく、ノイズやフィラー(えーと、うーん、あー)を上手に無視してくれて、音声認識の精度が高いというところがあります。 よくあ

        生成AI時代の音声入力ツール:SuperWhisperのすすめ - うみのーと
      • 音声入力+生成AI試してみた

        この数日でバズっていた一連の記事を読んで自分も試してみることにした。 【発端】音声入力とAIの組み合わせが強力だという骨しゃぶり氏の記事 https://honeshabri.hatenablog.com/entry/talk2ai 【音声入力】SuperWhisperが良いよというお話 https://umiyosh.hatenablog.com/entry/2025/02/26/215102 【テキストエディター】Cursorはコード書くだけじゃなく、AIを使った文章作成にもいいよというお話 https://ascii.jp/elem/000/004/253/4253872/ 結論から言うと骨しゃぶり氏の言ってることがよくわかった。めっちゃ便利というかちょっとしたイノベーション感じてる。 音声入力自体は以前にも試したことあるけど、そこから先が人力編集なのと、間にAIをかますのとではまっ

          音声入力+生成AI試してみた
        • iPhone・Androidで高速に日本語音声入力するためのベストプラクティス

          先日Twitterで「大学生がスマートフォンでレポートを書いている」というツイートが話題になっており、それに対して反応している方達もほぼ全員が「スマートフォンでレポートを書くのは効率が悪い」という前提で話をしていることに大変違和感を覚えました。 なぜなら私はこのブログはもちろん、技術書を執筆するときでさえ主にスマートフォンで下書きをしているからです。 PCを使うのは、ほぼスクリーンショットの撮影と最後の仕上げだけです。 その方が、最初からPCで文字入力するのに比べて圧倒的に効率が良いです。 この記事では、iPhoneとAndroidそれぞれで音声入力を効率よくおこなう方法について解説します。 iPhone・iPadの場合 先に結論から申し上げると、iPhone・iPad・Macの日本語音声入力は、AndroidのGoogle音声入力に比べて認識精度が低く、認識できる単語が少ないです。 仕事

            iPhone・Androidで高速に日本語音声入力するためのベストプラクティス
          • chat GPT + 音声入力 = やばい

            勝間和代氏が激推ししている音声入力がある。確かに入力は早いのだが、句読点はぬけるし、改行もまともにならないし、雑音で変な文章が入る。 これを自分で修正する前に、Chat GPTにやらせると、無茶苦茶効率がいい。 やり方はこうだ 適当なメモソフトに、スマホの音声入力で入力する入力結果をコピペする。この時、明らかにおかしい部分はざっと取り除く。(例えば、音声入力していて間違って入れちゃった部分など) Chat GPT に入力する。最後に自分で校正する もう一度 Chat GPTで整えてもらう (゚д゚)ウマー 通勤中の車の中で適当に文章を入力して、それを出社後処理して、増田に投稿する。これで今日も俺の増田ライフは楽しく続いているのであった。 ちなみにこれもこの方式で書いてる。あとはChat GPT がはてな記法に対応してくれればいいんだがな。(markdownはもういける)

              chat GPT + 音声入力 = やばい
            • 口パクで音声入力、喉に小型センサーで 東大とソニーCSLが技術開発

              Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 東京大学大学院情報学環とソニーコンピュータサイエンス研究所(CSL)の研究チームが開発した「Derma」は、喉周辺の皮膚にセンサーを張り付け、口パク(無声発話)を音声入力に変換する深層学習を用いたサイレントスピーチインタラクション(Silent Speech Interaction、SSI) だ。 話者の唇や顎(あご)周辺を指で触れ、発話を読み取ろうとする、視聴覚障害者のためのTadoma(触診リップリーディング)法から発想を得ている。Tadoma法では主に唇周辺の皮膚を触って発話を認識しているが、今回の研究ではそれを機械学習により自動化した。さらにウェアラブルでの利用を想定し、より目立ち

                口パクで音声入力、喉に小型センサーで 東大とソニーCSLが技術開発
              • 音声入力でメモを書けるウェブアプリを書いた、x-callbackを使ったアプリケーション連携

                voicodという音声入力でメモを書けるシンプルなウェブアプリケーションを書きました。 音声入力でメモができるシンプルなアプリケーションを書きました。https://t.co/EHSKnNKNaL x-callbackを使ってショートカット.app 等と連携すれば、入力内容をNotionに保存したりできます。 Note: SpeechRecognitionに対応したブラウザ(ChromeやSafari)が必要 Source: https://t.co/NnzXVjlGnF pic.twitter.com/yzoA3VIzzl — azu (@azu_re) February 10, 2022 SpeechRecognitionというウェブブラウザで音声認識をするAPIを使っているので、このAPIに対応しているブラウザが必要になります。 具体的にはGoogle ChromeやSafariなど

                  音声入力でメモを書けるウェブアプリを書いた、x-callbackを使ったアプリケーション連携
                • ヘッドセットでリマインダー音声入力という言霊2.0 - 本しゃぶり

                  唱えたことが現実になる。 これはオカルトではなくテクノロジーの話だ。 常時装着したヘッドセットが人生を変える。 常時装着の有効活用 左耳の前を触ってみよう。きっとそこには「ボタン」がある。 そこにはブームマイクしかないが、という人は右側を触ろう。 本記事はこのボタンを有効活用する記事である。 何も無いとのたまう旧人類は早くヘッドセット常時装着(アップデート)してほしい。 前回の記事への反応で、「読んでAfterShockzを買った」というコメントをわりと見た。記事を書いた者として、せっかく買って常時装着するのなら有効活用してほしい。そこで前回の記事では触れていなかった活用方法、リマインダーへの音声入力の話をする。これは音声アシスタントへの入力端末を常時装着することの、真の価値を感じられる手法である。 これを前回紹介しなかったのは、俺はApple Watchで音声入力をすることが多いからであ

                    ヘッドセットでリマインダー音声入力という言霊2.0 - 本しゃぶり
                  • superwhisperでの音声入力を試す

                    superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。 基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。 特徴 Whisperの認識精度が高い かなり早く喋っても認識してくれる 日本語も認識してくれるモデルがある 日本語で喋って英語に翻訳してくれる機能もある オフライン対応 有料: サブスク と 買い切り の2種類のプランがある 無料で15分のトライアル、その後は選べるモデルが制限される 公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。 大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり

                      superwhisperでの音声入力を試す
                    • Metaが音楽生成AIモデルをオープンソースで公開、テキスト&音声入力で誰でも高品質な音楽を作成できるように

                      Metaの研究チームが音楽を生成するAIモデル「MusicGen」を公開しました。オープンソースでの公開となっているため誰でも無料でモデルを利用できるほか、作例やデモが公開されており、その品質を実際に確かめることが可能になっています。 [2306.05284] Simple and Controllable Music Generation https://doi.org/10.48550/arXiv.2306.05284 MusicGen: Simple and Controllable Music Generation https://ai.honu.io/papers/musicgen/ MusicGenはChatGPTなどの大規模言語モデルと同様にTransformerを利用したモデルです。言語モデルは文の次の言葉を予測しますが、MusicGenは音楽の次のセクションを予測する仕組

                        Metaが音楽生成AIモデルをオープンソースで公開、テキスト&音声入力で誰でも高品質な音楽を作成できるように
                      • 9m先のスマートフォンを超音波で“攻撃” 人に聞かれずに音声入力も

                        Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 ミシガン州立大学、中国科学院、ネブラスカ大学リンカーン校、セントルイス・ワシントン大学による米中の研究チームが開発した「SurfingAttack」は、机などの固体を介した超音波によって、離れた場所に置かれているスマートフォンなどへ音声入力する伝送法だ。 SurfingAttackは、音声コマンドを人には聞こえない周波数帯域に変調し、超音波トランスデューサー(圧電トランスデューサー)を用い、固体を介した振動で信号を送ることで、机の上に置いてあるスマートフォンなどに音声入力する。 人には聞き取れない周波数を用いるため、スマートフォンの近くにいる人に気が付かれず音声入力できる。そのため、持ち主

                          9m先のスマートフォンを超音波で“攻撃” 人に聞かれずに音声入力も
                        • GeForce RTX搭載PCで動くローカルAI「ChatRTX」刷新。画像認識や音声入力に対応

                            GeForce RTX搭載PCで動くローカルAI「ChatRTX」刷新。画像認識や音声入力に対応
                          • 日本では一ヶ月かかる論文を海外は7日で書き終える→まさかの”音声入力”がカギ

                            りっく @marudewakaran40 留学先のボスに『日本の研究者は国際会議の論文1本書くのに1ヶ月かけるって本当かい?ウチのスタッフは3日で書いて3日でリバイスして1日かけて最終確認&投稿する、7日のワークと決めている。報告書は鮮度が命だからね』と言われて、そんなことができるのかと思っていたら、(1/2) 2023-08-20 12:07:23 りっく @marudewakaran40 ある日ラボのスタッフがなにやらブツブツ言っていて『なにしてるのん?』と聞いたら『論文書いてる。打つの面倒だからディクテーション機能で書いてる。これが早いんだよ』と言っていて当時は目から鱗なのん。 最近の私は、口頭で書き殴ってGPTに文法ミス指摘させてるのん(2/2) 2023-08-20 12:10:53

                              日本では一ヶ月かかる論文を海外は7日で書き終える→まさかの”音声入力”がカギ
                            • iOS版「OpenAI ChatGPT」アプリ、まずは米国で公開 音声入力も可能

                              Web版と同様にログインして使う。有料版「ChatGPT Plus」ユーザーであれば、Web版と同様にGPT-4へのアクセスや新機能の早期利用などが可能だ。 また、昨年9月に発表したオープンソースの音声テキスト変換AI「Whisper」により、音声でのプロンプト入力も可能だ。 米Microsoftは2月に「新しいBing」のモバイルアプリ版をiOSおよびAndroid向けにリリースした。こちらは既に日本でも利用可能で、日本語での音声入力もできる。 現在App Storeで「ChatGPT」を検索すると、OpenAIのロゴに似たロゴを冠した類似アプリが多数表示される。OpenAI ChatGPTは日本ではまだ公開されていないので、注意が必要だ。 関連記事 ChatGPT Plusのプラグインを使ってみた 「食べログ」連携で実在店舗も案内可能に OpenAIは「ChatGPT Plus」のサー

                                iOS版「OpenAI ChatGPT」アプリ、まずは米国で公開 音声入力も可能
                              • AirPodsを乗っ取り、スマホにこっそり音声入力する超音波攻撃 成功率は8割超 米研究者らが開発

                                Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2 米ミシガン州立大学に所属する研究者らが発表した論文「■https://dl.acm.org/doi/10.1145/3581791.3596837■」は、被害者に気が付かれることなくスマートイヤフォン(Airpods、Pixel Budsなど)からスマートフォンに音声入力する不可聴攻撃を提案した研究報告である。被害者の近くから超音波を発して、スマートイヤフォンに音声コマンドを送り、音声入力を行う。 スマートイヤフォンはBluetoothを使って近くの機器(スマートフォン、スマートスピーカー、スマートホームデバイスなど)に接続し、音声認識技術を駆使して音

                                  AirPodsを乗っ取り、スマホにこっそり音声入力する超音波攻撃 成功率は8割超 米研究者らが開発
                                • VSCodeで日本語の音声入力が可能に、Copilotがコードに合った変数名を提案など新機能。2024年2月のアップデート

                                  VSCodeで日本語の音声入力が可能に、Copilotがコードに合った変数名を提案など新機能。2024年2月のアップデート コードエディタのVisual Studio Code(以下、VSCode)は2024年2月のアップデートで、音声入力やCopilotによる変数名の提案などの新機能が追加されました。 More developer goodness in the February update of @code Use your voice to write code (in your language!) Code faster with multi-cursor suggestions Renaming gets easier (because it's AI powered) Release notes: https://t.co/zwokiQvbPU Download: http

                                    VSCodeで日本語の音声入力が可能に、Copilotがコードに合った変数名を提案など新機能。2024年2月のアップデート
                                  • ブラウザのみでさくさく動作するオープンソースな豪華版ChatGPT「YakGPT」、公式UIより高速で音声入力も可能

                                    優れたチャットAIがいろいろと出てきていて、ノートPCでも実行可能な「GPT4ALL」のように、のように、ハードウェアのスペックをそこまで求めないものも出てきました。しかし、その際には数GBのデータをDLする必要があるなど、使用自体は手軽でも導入はそこまで容易ではありません。オープンソースの「YakGPT」は「シンプルかつローカルで動くChatGPTのUI」を名乗るとおり、特別なアプリの導入は一切必要なく、ブラウザとOpenAIのAPIキーがあればチャットAIを利用できます。 YakGPT https://yakgpt.vercel.app/ YakGPTにアクセスするとこんな画面が表示されます。まずは利用するにあたって「Enter API Key」をクリック。 Open AIのAPIキー入力画面になります。すでにAPIキーを手元に持っている人は入力してください。今回はAPIキーを発行する

                                      ブラウザのみでさくさく動作するオープンソースな豪華版ChatGPT「YakGPT」、公式UIより高速で音声入力も可能
                                    • Google Keepなら、スマホ音声入力から自動テキスト化。メモ・ToDo管理を簡単に! ~小ワザ集<2>【「G Suite」時短&コラボ仕事術】

                                        Google Keepなら、スマホ音声入力から自動テキスト化。メモ・ToDo管理を簡単に! ~小ワザ集<2>【「G Suite」時短&コラボ仕事術】
                                      • 私の音声入力と格闘した16年の歴史を語る - 勝間和代が徹底的にマニアックな話をアップするブログ

                                        最近やっとフットスイッチで、Androidの音声入力ができるようになって落ち着きました、そしていつから音声入力を始めたんだろうと思って調べていたところ、2005年からでした。 メールを検索してみたところ、まずは2005年の8月にViaVoiceというソフトウェアを買っています。 当時の音声入力は本当に認識性能が悪くて明らかに手で打った方が早かったのですが、それでも毎日色々レポートを書く仕事をしていましたのでわらにもすがる思いで音声入力ソフトを試していました。 そして、2008年ぐらいから、ドラゴンスピーチやAmiVoiceという少しましなソフトウェアが出始めて、何をしていたかというと、せっせと私の発音の癖を覚えさせてちょっとでも単語認識が違うものについてはもう一度教育をするといったようなわりと地味なことをしていました。 ところがそんなこんなをしてるうちにスマホの音声入力が出回り始めて、20

                                          私の音声入力と格闘した16年の歴史を語る - 勝間和代が徹底的にマニアックな話をアップするブログ
                                        • 「Googleドキュメント」の音声入力機能がアップデート--使い方を解説

                                          声は強力なツールだ。Googleの音声入力機能は、声による文字入力を支援するだけでなく、プレゼンにも活用できる。 Googleの音声入力機能を使えば、自分の声を使って、頭の中の考えを素早く簡単にデジタル化できる。 Googleは米国時間1月9日、音声入力でより正確かつ安定した文字起こしを実現するアップデートを段階的にリリースすると発表した。 主な変更点は次のとおりだ。 音声を文字起こしする際の変換ミスを削減 文字起こしの漏れを最小化 対象が大半の主要ブラウザーに拡大 「Googleスライド」のキャプションに句読点を自動挿入 強化された音声入力機能を実際に使えようになるのは大半のユーザーの場合、2月9日以降だ。その間に、Googleの音声入力機能を使って「Googleドキュメント」で入力・編集をしたり、Googleスライドのスピーカーノートに音声でテキストを入力したりする方法を紹介しよう。

                                            「Googleドキュメント」の音声入力機能がアップデート--使い方を解説
                                          • 口パクで音声入力できるイヤフォン 口を動かした際の耳穴の変形から予測 米国チームが開発

                                            Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米University at Buffalo, State University of New York、米ノースウェスタン大学、米ワシントン大学、米コロラド大学の研究チームが開発した「EarCommand: “Hearing” Your Silent Speech Commands In Ear」は、口パク(無声発話)で音声入力できるイヤフォンだ。口を動かした際の耳穴の変化を取得して入力を区別する。 音声を発することなく口の動きだけでモバイル機器を操作するサイレントスピーチインタラクション(Silent Speech Interaction、SSI)が広く研究されている。音声入力による情

                                              口パクで音声入力できるイヤフォン 口を動かした際の耳穴の変形から予測 米国チームが開発
                                            • レ点🧬 on Twitter: "確定申告の医療費控除、10万円越えるかどうか全部電卓で足し算するのは面倒なので、何十枚もある領収書を全て並べ、そろばんのようにGoogleスプレッドシートに音声入力で「願いましては〜390+710+1230+550+…」と金額を読… https://t.co/yjIP1SvtNh"

                                              確定申告の医療費控除、10万円越えるかどうか全部電卓で足し算するのは面倒なので、何十枚もある領収書を全て並べ、そろばんのようにGoogleスプレッドシートに音声入力で「願いましては〜390+710+1230+550+…」と金額を読… https://t.co/yjIP1SvtNh

                                                レ点🧬 on Twitter: "確定申告の医療費控除、10万円越えるかどうか全部電卓で足し算するのは面倒なので、何十枚もある領収書を全て並べ、そろばんのようにGoogleスプレッドシートに音声入力で「願いましては〜390+710+1230+550+…」と金額を読… https://t.co/yjIP1SvtNh"
                                              • iPhoneで「レイシスト」と音声入力すると、一瞬「トランプ」と表示されるバグ

                                                iPhoneの音声入力システムで「Racist」(差別主義者)と入力すると、一瞬、「Trump」(トランプ)と表示されるバグが発見された。2月25日頃から、複数の海外メディアが報じている。 報道によると、本件はTikTokに投稿された個人の動画がきっかけで判明。当該動画にはiPhoneの標準キーボード上で、前述の症状が発生する様子が映し出されている。 アップルは一部メディアの取材に対し、誤表示は2つの単語間の音声の重複が原因で、修正に取り組んでいると説明。一連の報道では子音の「R」を含む複数の単語で同様の問題が確認されており、アップルの見解には一定の信憑性があるとみてよいだろう。 1つ懸念があるとすれば、同社が誤表示を引き起こした根本的な原因(例:サーバー交換時に誤ってバグ修正前のソフトウェアをインストールしてしまった等)を明かしていないこと。結果として、本件では誤表示されたTrumpから

                                                  iPhoneで「レイシスト」と音声入力すると、一瞬「トランプ」と表示されるバグ
                                                • 読唇術で音声入力 スマホで口パクを自撮りし音声に変換「LipType」

                                                  Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米カリフォルニア大学マーセド校の研究チームが開発した「LipType」は、音のない口パク映像を音声に変換する、深層学習を用いた読唇システムだ。スマートフォンのインカメラで口パクを自撮りして、話者の唇の動きを読み取る。 音声認識は、周囲が騒がしい場合には信頼性が低く、図書館や電車内などではプライバシーやセキュリティが損なわれる。声が出せない障害のある人はそもそも音声認識が使えない。 解決策としては、口パクのような無声発話による音声入力が挙げられる。無声発話時に動く顎の動きを捉えて音声に変換するものや、無声発話時に顎の下に設置したセンサーから皮膚が変動する顎運動と舌筋の運動を計測し音声に変換す

                                                    読唇術で音声入力 スマホで口パクを自撮りし音声に変換「LipType」
                                                  • なんと Google の音声入力で句読点が入れられるようになっていました - 勝間和代が徹底的にマニアックな話をアップするブログ

                                                    Google の音声入力はそこそこ正確なのですが、玉に瑕は何と言っても句読点が入らないことです。 ライバルの Simeji であれば自動で入りますし、あるいは iOS であればテンとかマルとか言うと入力することができます。 ところがいつから変わったのか知りませんがとうとう Google の音声入力も Android 版であれば句読点を口頭で入れられるようになりました。 読点は「とうてん」 句点は「まる」 と発音するだけです。改行もできるかなと思ってやってみたのですが残念ながら改行はできませんでした。 あと一旦丸と言って句点にしたとしてもその後で文章が続いてしまうと文章の中身ともう一回勘違いして、せっかくの句点をもう一度文字に戻してしまいます。 また、Simejiと違って句読点が自動で入らないのでどうしても思考が中断されるので私はそんなにヘビーに使うとは思いませんが、それでもこれまでよりは使

                                                      なんと Google の音声入力で句読点が入れられるようになっていました - 勝間和代が徹底的にマニアックな話をアップするブログ
                                                    • 口パクで音声入力できるマスク、東大などが開発 約8割の精度で音声を認識

                                                      E-MASKでは、口元の動きによるマスクの変形を計測するために、曲がり具合を検出できる柔軟で高感度なひずみセンサーを利用する。マスク1枚に対して8個のひずみセンサーを用いる。マスクには細長い布をアイロンで熱圧着し8個分のポケットを作る。そのポケットにひずみセンサーをそれぞれ挿入する。そのため、ひずみセンサーの着脱が容易で、日常的に使用するマスクに簡単にセンシング機能を付与することが可能である。 ひずみセンサーの他に、ひずみセンサーの抵抗値変化を測定する回路部分、測定値をノートPCに送るマイクロコンピュータから構成する。現在の回路部分はボックスを首からぶら下げる仕様だが、今後はチップに設計し直しマスクに組み込みたいという。 実験では、Alexaの基本的な操作コマンド21個を推定対象とした。その結果、座位での発話推定精度は84.4%、歩行での発話推定精度は79.1%を示した。 Source a

                                                        口パクで音声入力できるマスク、東大などが開発 約8割の精度で音声を認識
                                                      • 「ChatGPT」iOSアプリを公開 音声入力にも対応

                                                          「ChatGPT」iOSアプリを公開 音声入力にも対応
                                                        • OpenAIが無料で使えるAIモデル「GPT-4o mini」をリリース、マルチモーダルで画像や音声入力にも対応

                                                          OpenAIが2024年7月18日に、コスト効率に優れた小型モデルの「GPT-4o mini」を発表しました。低コストでありながら、一部のベンチマークでGPT-4を上回るスコアを示したGPT-4o miniは、GPT-3.5の後継として無料ユーザーとChatGPT Plusのユーザーに提供が開始されています。 GPT-4o mini: advancing cost-efficient intelligence | OpenAI https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/ OpenAI Releases GPT-4o Mini, a Cheaper Version of Flagship AI Model - Bloomberg https://www.bloomberg.com/ne

                                                            OpenAIが無料で使えるAIモデル「GPT-4o mini」をリリース、マルチモーダルで画像や音声入力にも対応
                                                          • 「Bing」のAIチャット、デスクトップでも音声入力が可能に ~日本語を含む5カ国語で/回答も声で、おしゃべり感覚

                                                              「Bing」のAIチャット、デスクトップでも音声入力が可能に ~日本語を含む5カ国語で/回答も声で、おしゃべり感覚
                                                            • NVIDIAのローカルAI「ChatRTX」、AIモデル追加で画像認識や音声入力が可能に/

                                                                NVIDIAのローカルAI「ChatRTX」、AIモデル追加で画像認識や音声入力が可能に/
                                                              • 【GPT-4V】ChatGPTが画像入力と音声入力に対応!使い方〜実践まで徹底解説 | WEEL

                                                                2023年9月25日にリリースされた新たな機能で、ChatGPTがついに、目と声を手に入れました。 具体的には、画像解析機能と音声出力機能のAPI「GPT-4V」が追加され、マルチモーダルAIになったとのこと。 要するに、ChatGPTで画像入力と音声出力ができるようになり、今までよりさらに便利になったということですね! 今回はそのGPT-4Vの概要や新機能について、特徴を踏まえながら詳しくご紹介します。ぜひ最後までご覧ください! GPT4Vの概要 GPT-4V(Vision)は、Open AI社が開発した従来のGPT-4に画像解析機能と音声出力機能を持たせたマルチモーダルAIです。マルチモーダルAIとは、複数のデータをもとに情報を集めて、解析・出力を可能とするAIのことです。 つまりGPT-4を搭載したChatGPTに「目」と「声」が実装されたことで、画像・音声・テキストという異なる情報

                                                                • Pixel8来ました。そして、音声入力ボタンが押しやすくなったということに大きな価値があります!! - 勝間和代が徹底的にマニアックな話をアップするブログ

                                                                  発売したてのPixel8すぐにセットアップしてみました。 そして、私が無印のピクセルを使うのは外に持ち歩くというよりは、用途としてはほとんどパソコンのための音声入力としてリモートマウスを使うためです。 右側がPixel7、左側がPixel8なのですが、これ写真ではほとんど分かりませんが、私の触感として大きな違いがあります。それは何かというと、キーボードの一番右の Google の音声入力のボタンを押した時に、Pixel7までは、指に右側のベゼルの横にある枠の銀色のところが当たってしまうのですが、Pixel 8から指が当たらなくなりました。 これは毎日何十回もこのボタンを押す私にとってはとても気持ちが良いもので、これまで逆にこの銀色の枠にボタンのところが指がかかっていたのは気持ち悪かったんだということがよくわかりました。 もちろん Pixel のProであれば、銀の枠のところに指は当たらなか

                                                                    Pixel8来ました。そして、音声入力ボタンが押しやすくなったということに大きな価値があります!! - 勝間和代が徹底的にマニアックな話をアップするブログ
                                                                  • フットスイッチを音声入力のトグルに使ってみる - 勝間和代が徹底的にマニアックな話をアップするブログ

                                                                    ルートアール メカニカルスイッチ搭載 USBフットペダルスイッチ 3ペダル グレー RI-FP3MG ルートアール Amazon あいからず音声入力ばかり使っていますが、音声入力の問題点はそのオンオフをするのにちょっとキーボード操作が複雑なことです。 ChromeのVoiceInの場合は、Shift+CTRL+9だし、Google Documentは、Shift+CTRL+Sです。 そうしたらふと読んでいた漫画の中にフットスイッチの話があってこれは面白いと思って買ってみました。 実際にやってみたところ思ったより悪くなくて、パシッとこれまでマウスやキーボードでめんどくさかった音声入力のトグルができるようになったので結構音声入力が快適になりました。 特に VoiceIn を使って音声入力は面倒くさいなと思ってる方にはお勧めです。別に音声入力のところではなくいろいろなキーボードやマウス操作が割り

                                                                      フットスイッチを音声入力のトグルに使ってみる - 勝間和代が徹底的にマニアックな話をアップするブログ
                                                                    • 2021 年 11 月現在の Windows パソコンへの音声入力方法4種類の長所短所のまとめ - 勝間和代が徹底的にマニアックな話をアップするブログ

                                                                      相変わらず日々の作業を音声入力で行っています。2021 年 11 月現在 Windows 系のパソコンで音声入力をしようとすると、以下の 4 つの方法が現実的なので、それぞれの長所と短所をまとめていきたいと思います。 カテゴリー1 パソコン単体で行えるもの その1 Windows11の音声入力 その2 Googleの音声入力 カテゴリー2 Remote Mouseとアンドロイドを併用するもの その3 Simeji その4 Google Pixel6で使えるアシスタント音声入力 まず、カテゴリー1の特徴はなにかというと、とにかく、設定が簡単です。特にノートパソコンなどでしたらマイクがデフォルトでありますので、何のハードウェアの追加もなく入力ができるようになります。 その1 Windows11の音声入力 Windows 11 が入る場合には Windows 11 がおすすめです。標準でついてく

                                                                        2021 年 11 月現在の Windows パソコンへの音声入力方法4種類の長所短所のまとめ - 勝間和代が徹底的にマニアックな話をアップするブログ
                                                                      • 無償のiOS版「ChatGPT」を早速使ってみた ~ついに来た公式アプリは優秀な音声入力機能がいい!/基本は同じでも直感的かつスムーズな手触りに好印象【やじうまの杜】

                                                                          無償のiOS版「ChatGPT」を早速使ってみた ~ついに来た公式アプリは優秀な音声入力機能がいい!/基本は同じでも直感的かつスムーズな手触りに好印象【やじうまの杜】
                                                                        • 【薬歴・音声入力】エニフボイスのメリット・デメリットを徹底解説

                                                                          使い方に慣れてしまえばすごく楽だよ。 キーボード入力が苦手な人でも速く薬歴が書けるようになるしね。 でも、快適に使えるまでに結構時間がかかるんだ。 薬剤師は患者さんに指導した内容を「薬歴」というかたちで文章として残さなければなりません。 昔は手書きで頑張っていましたが、電子薬歴に移行する薬局が多くなり、パソコンのキーボード入力で薬歴を書けるようになりました。 さらに技術は進み、音声認識というマイクに話すだけで文字がパソコン上に入力される、画期的なものまで出てきました。 Mr.Tも最初は手書き薬歴でしたが、キーボード入力、音声認識と3つの方法を経験してきています。 音声認識は手書きやキーボード入力よりも圧倒的に時短につながりますが、使いこなせるようになるには時間がかかるなどのデメリットもあります。 今回は薬歴を音声認識で書くメリット・デメリットを説明していきます。 なお、Mr.Tがいる会社で

                                                                            【薬歴・音声入力】エニフボイスのメリット・デメリットを徹底解説
                                                                          • ブログの音声入力(PC)&個人的あるある - 綾なす

                                                                            私はパソコン(Windows)でブログを書いています。 使っているブラウザはChrome。 近頃やっと音声入力に成功しました。 ブラウザーの拡張機能にVoiceInを追加しました。 時折変換ミスもありますが便利です。 右手人差し指をあまり使いたくないので画面スクロールをマウスの中心にあるホイールで自動スクロールしてみたら目が回り気持ち悪くなりました。 購入したマイク https://www.amazon.co.jp/gp/product/B077Y974JF/ref=ppx_yo_dt_b_asin_title_o01_s00?ie=UTF8&psc=1 拡張機能 chrome.google.com 個人的あるある 生活の中で多くの人が感じるであろう「あるある」を個人的見解からまとめてみました。 天気予報 テレビで見る天気予報、主要な地域しか報道しないので我が家がどこに属するか分からない。

                                                                              ブログの音声入力(PC)&個人的あるある - 綾なす
                                                                            • [スタパ齋藤の「スタパトロニクスMobile」] 書画カメラで書類スキャン・Web会議・音声入力を全部やるゼ!!!

                                                                                [スタパ齋藤の「スタパトロニクスMobile」] 書画カメラで書類スキャン・Web会議・音声入力を全部やるゼ!!!
                                                                              • 体の動きや音声入力でアプリケーションをハンズフリー操作したりプログラミングしたり文章を書いたりしてみる

                                                                                この記事は、体の動きとか音声入力でアプリケーションを操作したり、プログラミングをするにはどうすればいいかということをいろいろ実験してみた記事です。 この記事には、実用性があるものと現実的に使うにはトレーニングが必要なものが混在しています。そのため、そこまで期待してはいけません。 この記事は、TalonとmacOSの音声入力で書いたものを手作業で修正しています。 マイクはBlue Microphones Yeticasterを使いました。 きっかけ t_wadaさんが老眼について書いていたのが、この記事を書いたきっかけの一つです。 プログラマ35歳定年説はとっくに過去のもので、35歳を過ぎても能力も報酬も伸び続けるし、生涯現役プログラマのロールモデルとなる方も増えてきた。ただ諸先輩方から聞いた話をまとめると、ベテランプログラマの前に立ち塞がるのは「老眼」で、こればかりは本当に恐ろしい。何か対

                                                                                  体の動きや音声入力でアプリケーションをハンズフリー操作したりプログラミングしたり文章を書いたりしてみる
                                                                                • [iPhone駆け込み寺] 「iOS 16」でiPhoneで音声入力がより便利に、より実用的になったことを知ってほしい

                                                                                    [iPhone駆け込み寺] 「iOS 16」でiPhoneで音声入力がより便利に、より実用的になったことを知ってほしい

                                                                                  新着記事