2025-02-28

音声入力+生成AI試してみた

この数日でバズっていた一連の記事を読んで自分も試してみることにした。

【発端】音声入力AIの組み合わせが強力だという骨しゃぶり氏の記事

https://honeshabri.hatenablog.com/entry/talk2ai

【音声入力】SuperWhisperが良いよというお話

https://umiyosh.hatenablog.com/entry/2025/02/26/215102

テキストエディター】Cursorはコード書くだけじゃなく、AIを使った文章作成にもいいよというお話

https://ascii.jp/elem/000/004/253/4253872/

結論から言うと骨しゃぶり氏の言ってることがよくわかった。めっちゃ便利というかちょっとしたイノベーション感じてる。

音声入力自体は以前にも試したことあるけど、そこから先が人力編集なのと、間にAIかますのとではまったく違う感覚

しろ音声入力AIありきで使うべきものなんだなと確信しました。

ちなみに自分は残念ながらWindows環境だしスマホandroidなので、superwhisperは使えない。(windows版のベータウェイトリストみたいなのは申請しておいた)

Win環境の人も多いと思うのでなにかの参考になれば幸いです。

SuperWhisperが現時点では使えないので、とりあえずwindows11に標準で入ってる音声入力を使った。

cursorをインストールして立ち上げて、Win+Hキーを押しWinの音声入力を起動、おもむろに喋りまくる。

昔試したときよりかなり聞き取りの精度が上がってる気がする。

句読点に関しては「自動句読点を入れる」という機能をオンにしておくと、けっこういい感じに打ってくれる。

唯一やっかいなのが「改行」と言うことで改行コマンドが送られるんだが、これがあまり認識してくれない。

後でなんとでもなるとはいえ特定コマンド送信キーボードで入力を併用する必要性はまだ感じた。

この辺SuperWhisperだともっと賢いのかな?

精度が上がったとはいえ、cursor上に打ち込まれ文章はもちろんめちゃくちゃではある。「えーと」とかいらない要素がたくさん含まれてる。

どうでもいいけど自分が喋ってるのが文字起こしされてるのって不思議感覚だ。俺こんな無駄な喋り方してんだな・・って思う。

Ctrl+Pで出てくるAIチャットパネルで「選択した文章を整理してまとめてください」と頼むと、数秒で内容がきれいに要約された。

「えーと」とかいらない要素も全部なくなってる。

書いた文章AIに整理させるだけなら今までも普通によくやってたんだが、

この「適当にだらだら喋った内容が一発で整理されてまともな文章になってる」というコンボがけっこうクリティカルに刺さった。

「~とも言えるし、~とも言えるよなあ・・」なんてフワフワした感じで喋ってる内容が、ちょっと違う視点でうまく一言に置き換えられたりもしてて、その切り口に感心したりもする。

喋ってる時はもうほんとバカでいい。思ったことただ垂れ流すだけでいいって思うと一気に入力が気楽になる。

とにかく重要ポイントとしては、あんま考えながら話す必要はなくて、思いつくままとりあえず喋ればいいということなんだろうと思う。

あと向いてないものもわかった気がする。

創作的文章については、割と大事な部分が抜け落ちてしまうなという感覚があった。

創作としての文章というのは、書いては消し、また書いての繰り返しによる壁打ち的な要素がある。

言葉を選びながら推敲するプロセス重要なので、AIが整理してしまった文面を見たときに手離れしすぎて思考の断絶が起きやすい。

少なくとも汎用のモデルではしょうもないビジネスマンみたいな紋切り型になってしまうのでむしろ萎える。ただ専用モデルとか用意できれば驚くほど文学的な返しをしてくるかもしれない。

現時点での実践的な使い方としては、買い物で比較検討したり調べ物してるときってあれこれ考えながら調べてるじゃん

ブラウザのタブが大量に開いてる状態とか、そういうのをがんがん喋って全部AIに整理してもらうとかすごいいいと思った。

  • 増くんの提案はおもしろい 次の買い物で試してみよう!

  • あーこーゆーのいいねー

  • 単語の羅列レベルな雑に作文でも意図を汲んで綺麗な文章に整えてくれるのは確かにLLMの強みなんで、音声入力とはすごく相性が良さそう こういう用途だとClaude使うといい感じにエスパ...

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん