この数日でバズっていた一連の記事を読んで自分も試してみることにした。
【発端】音声入力とAIの組み合わせが強力だという骨しゃぶり氏の記事
https://honeshabri.hatenablog.com/entry/talk2ai
https://umiyosh.hatenablog.com/entry/2025/02/26/215102
【テキストエディター】Cursorはコード書くだけじゃなく、AIを使った文章作成にもいいよというお話
https://ascii.jp/elem/000/004/253/4253872/
結論から言うと骨しゃぶり氏の言ってることがよくわかった。めっちゃ便利というかちょっとしたイノベーション感じてる。
音声入力自体は以前にも試したことあるけど、そこから先が人力編集なのと、間にAIをかますのとではまったく違う感覚。
むしろ音声入力はAIありきで使うべきものなんだなと確信しました。
ちなみに自分は残念ながらWindows環境だしスマホもandroidなので、superwhisperは使えない。(windows版のベータウェイトリストみたいなのは申請しておいた)
Win環境の人も多いと思うのでなにかの参考になれば幸いです。
SuperWhisperが現時点では使えないので、とりあえずwindows11に標準で入ってる音声入力を使った。
cursorをインストールして立ち上げて、Win+Hキーを押しWinの音声入力を起動、おもむろに喋りまくる。
句読点に関しては「自動で句読点を入れる」という機能をオンにしておくと、けっこういい感じに打ってくれる。
唯一やっかいなのが「改行」と言うことで改行コマンドが送られるんだが、これがあまり認識してくれない。
後でなんとでもなるとはいえ、特定のコマンド送信はキーボードで入力を併用する必要性はまだ感じた。
この辺SuperWhisperだともっと賢いのかな?
精度が上がったとはいえ、cursor上に打ち込まれた文章はもちろんめちゃくちゃではある。「えーと」とかいらない要素がたくさん含まれてる。
どうでもいいけど自分が喋ってるのが文字起こしされてるのって不思議な感覚だ。俺こんな無駄な喋り方してんだな・・って思う。
Ctrl+Pで出てくるAIのチャットパネルで「選択した文章を整理してまとめてください」と頼むと、数秒で内容がきれいに要約された。
「えーと」とかいらない要素も全部なくなってる。
書いた文章をAIに整理させるだけなら今までも普通によくやってたんだが、
この「適当にだらだら喋った内容が一発で整理されてまともな文章になってる」というコンボがけっこうクリティカルに刺さった。
「~とも言えるし、~とも言えるよなあ・・」なんてフワフワした感じで喋ってる内容が、ちょっと違う視点でうまく一言に置き換えられたりもしてて、その切り口に感心したりもする。
喋ってる時はもうほんとバカでいい。思ったことただ垂れ流すだけでいいって思うと一気に入力が気楽になる。
とにかく重要なポイントとしては、あんま考えながら話す必要はなくて、思いつくままとりあえず喋ればいいということなんだろうと思う。
あと向いてないものもわかった気がする。
創作的な文章については、割と大事な部分が抜け落ちてしまうなという感覚があった。
創作としての文章というのは、書いては消し、また書いての繰り返しによる壁打ち的な要素がある。
言葉を選びながら推敲するプロセスが重要なので、AIが整理してしまった文面を見たときに手離れしすぎて思考の断絶が起きやすい。
少なくとも汎用のモデルではしょうもないビジネスマンみたいな紋切り型になってしまうのでむしろ萎える。ただ専用モデルとか用意できれば驚くほど文学的な返しをしてくるかもしれない。
増くんの提案はおもしろい 次の買い物で試してみよう!
あーこーゆーのいいねー
単語の羅列レベルな雑に作文でも意図を汲んで綺麗な文章に整えてくれるのは確かにLLMの強みなんで、音声入力とはすごく相性が良さそう こういう用途だとClaude使うといい感じにエスパ...