本しゃぶり

骨しゃぶりの本と何かを繋げるブログ

当ブログではアフィリエイト広告を利用しています

音声入力と生成AIの組み合わせが強すぎて、一人でブツブツ喋るオジサンとなった

なぜオジサンは一人でブツブツと喋るのか。
それは、音声入力こそが最強のプロンプトを生み出すからである。

両手をキーボードから解放する時が来た。

忙しい人向けの説明

さっそくChatGPTを開き、iOSのマイクから音声入力を起動したら、

これを使って入力

「本しゃぶりというブログにChatGPTの使い方について、面白そうな記事があったのでメモ。なんか音声入力を使うといいらしい。これまで話した内容について整理し、マークダウンで出力して」

と喋っておこう。誤字脱字などの修正をせずに投稿すればいい。

以上。

音声入力と生成AIの組み合わせが強い

生成AIをうまく使いたいならば、詳細なコンテキストを与えるのが良い。しかし、ここに大きな問題があった。

人間というものは楽をしたがる生き物である。特にAIに助けを求めるような人は、なおさらだ。文章を入力することに面倒くささを感じ、つい最小限の指示で済ませてしまう。その結果、生成されるものは的外れになり、何度もやり取りを重ねるので時間がかかる。

このジレンマを解決する鍵となるのが、音声入力だ。やはり人間にとって最も自然なコミュニケーション手段は「話す」ことなのだ。口頭ならば無理なく多くの情報を伝えられ、AIは適切な回答を返してくれる。

具体的にどうなるのか、実例を見てみよう。

俺のプロンプト

長いので以下省略。キーボード入力ではこんなことやってられないが、音声入力だと簡単にやれてしまう。全文を読みたい人はここから元のやりとりへ飛べる。

ChatGPTの出力結果は以下だ。

キャンバスにまとまった

これはそのまま使えるから以下に貼ろう。


導入(イントロ)

  • 音声入力と生成AIの組み合わせがなぜ重要なのか
  • 今回の記事で伝えたいこと(音声入力×AIが強力すぎるということ)

音声入力×AIの基本的な活用方法

  • メモやアイデア記録
  • 文章執筆

従来の音声入力のメリット

  • キーボードよりも簡単で直感的
  • 思いついたことをそのまま出力できる(ノンストップライティングに近い)
  • 入力速度はキーボードに劣るが、思考の流れを止めない

従来の音声入力の弱点

  • 論理的・体系的にまとまりにくい
  • 誤字脱字や音声認識ミスが多い
  • 口語と文語のギャップ
  • 結果的に修正作業が面倒

AIを組み合わせることで解決される課題

  • AIが論理構造や文章の整理を自動で行ってくれる
  • 誤字脱字、変換ミスを自動で修正してくれる
  • 見出しや箇条書き、装飾、マーメイド図などをAIが自動生成
  • ユーザーは伝えたい内容だけに集中できるようになる

音声入力×AIのさらなる強み

① 他の作業と並行できる

  • 資料を見ながらの作業が効率的になる
  • 視線移動や資料の切り替えが不要に
  • スマホとPCを使い分けることで効率的に

② 移動中や作業中にもアイデアを記録できる

  • 通勤中、家事の途中など隙間時間を活用
  • 記事の骨格を移動中に完成できるメリット

実践するための具体的な工夫

  • PCとスマホで用途を分ける
  • ヘッドセット(骨伝導)を常時装着する
  • ショートカット(iOS)を活用した自動化
    • 入力した音声をGPTのAPIで処理
    • オブシディアンなどのメモアプリへ自動でマークダウン保存
    • デイリーノートとリンク生成で記録の整理が自動化

実際に試して感じた変化

  • アイデアや思考が即時に豊富に記録できるようになった
  • 記録した内容の質が向上(前提・課題・展望なども記録されるため)
  • 生産性が圧倒的に向上

なぜ今まで気づかなかったのか?(気づきのきっかけ)

  • ハイパーラジオで知った経緯
  • ChatGPTの対話モードに囚われていたという落とし穴
  • iOSやOSの標準機能として以前から実現可能だったことへの気づき

結論(まとめ)

  • AIと音声入力の組み合わせは最強の執筆術
  • 具体的な方法を紹介したので、読者にもぜひ試してほしい
  • 今すぐ始められるので、気軽にチャレンジを促す

…………

…………

これ以上、書くことあるか?

とはいえ細かい点は概要だけだと分かりにくいと思うので、実践するための具体的な工夫に関しては説明するか。

実践するための具体的な工夫

ただChatGPTに話しかけるだけでもいいが、使っている中で「こうするともっと楽」というのが分かったので共有しよう。

PCとスマホで用途を分ける

効率的な音声入力の核となるのは、スマートフォンを入力専用端末として使うことである。なぜスマートフォンなのか。それは常に携帯でき、OSの標準機能として高精度な音声入力が利用可能だからだ。しかも、片手で操作できる手軽さは、アイデアを即座に記録する上で決定的な意味を持つ。

さらに参考資料や情報の確認が必要な場合は、入力に使っているスマホではなく、PCやタブレットなどを追加の端末として用意するのだ。それは同一端末で画面を切り替えると、入力の流れが途切れてしまうからである*1。PCの前にいるときも入力はスマホで行い、PCは資料参照に使うのが良い*2。もちろんChatGPTの回答を確認する際にPCで見るのはOKだ。

入力環境の整備

音声入力を効率的に行うための重要な要素が、ヘッドセットの活用である。ここで注目すべきは二つのポイントだ。

一つ目は両手の自由である。音声入力中も両手を使えることで、作業を中断することなくアイデアを記録できる。しかし、それ以上に重要なのが二つ目のポイント、常時装着という考え方なのだ。

なぜ常時装着が重要なのか。それは準備の手間を省くためである。「メモを取ろう」と思い立った時に、イヤホンを取り出してスマートフォンと接続する、という作業が発生すれば、その時点で思考は中断されてしまう。アイデアは待ってくれない。だからこそ、メモを取りたいと思った瞬間には、すでに入力の準備が整っている状態が必要なのだ。

この常時装着を実現する上で、骨伝導イヤホンなどのオープンイヤー型のヘッドセットが特に効果的である。これらは長時間の装着でも負担が少なく、外界の音も聞こえるため、日常的な作業の邪魔にならない。俺の場合はShokzのOpenRun Pro 2 miniを使っている。骨伝導の割には音質が良く、マルチポイント接続対応。充電もUSB-Cになった。

骨伝導イヤホンについて知りたい人は以下を参照。

骨伝導が苦手な人は上の記事のブコメで人気だったFreeClipや、付け心地に定評のあるNothing Ear (open)などを使えばいい。マイク付きイヤホンなら何でもOKだ。大事なのは常時着用である。

ショートカットによる自動化

俺の場合、ChatGPTに作ってもらった内容をそのまま放置するのではなく、ちゃんとObsidianで管理したいと考えている。だが、そのためにはいちいちアプリを開いてChatGPTと会話し、その出力をコピーしてObsidianに保存する必要がある。この一連の作業を毎回繰り返すのは、実にダルい。

そこで俺は、この問題を解決するためにiOSのショートカット機能を使って自動化することにした。つまり、手作業で行っていた一連の流れを、最小限の操作で完了できるようにしたのである。

具体的な処理の流れは以下の通りだ。

  1. 入力のトリガー

    • iPhone 16 Proのアクションボタンに割り当てることで、即座に入力を開始できる
    • 入力画面が表示され、音声入力または手入力でテキストを作成
    • 入力完了後「完了」を押すだけで後続の処理が自動的に開始される
  2. AIによる処理

    • 入力されたテキストをAPIでChatGPTへ送信
    • システムプロンプトで「Markdown化」や「誤字修正」などの指示を自動付与
    • ChatGPTが内容を理解し、構造化された形式に整理
  3. ファイル生成と保存

    • 生成されたMarkdownから1行目をタイトルとして抽出
    • タイトルを元にファイル名を自動生成
    • Obsidian用のiCloud Driveフォルダに保存
    • 元の入力データ(生データ)も別フォルダに保存
    • 双方のファイルにノートリンクを自動付与
  4. デイリーノートとの連携

    • その日のデイリーノートに、新規作成したノートへのリンクを自動追記
    • 時系列での記録が自動的に維持される
  5. 即時利用のための処理

    • 生成されたMarkdownをクリップボードにコピー
    • 画面上に表示して確認可能
    • 他のアプリやサービスへの貼り付けがすぐに行える

流れを図示すると以下となる。

この図もChatGPTに口頭指示で作ってもらった

実際の画面はこんな感じ。

入力画面

ショートカット完了時の画面

マジで楽すぎてバカになりそう。

終わりに

音声入力と生成AIを組み合わせることで、アイデアの記録から保存までのプロセスが自動化された。これにより思考から記録までの心理的・時間的障壁最小限に抑えられるので、メモが捗る。実際、通勤中や入浴時など、ふと何かを思いついた時に、iPhoneに向かってバーッと喋るだけでメモが完成する。順番や構成なんて気にする必要はない。思いついたことを、ただひたすら話すだけでいいのだ*3

これが日々のnote更新を劇的に楽にしてくれている。ちょっとした隙間時間に、アイディアを声で書き留めておけば、後でそれを元に簡単に記事化できるのだから。

なんなら、この記事こそが証拠になっている。これまでは雑誌連載の締め切りに追われ*4、なかなかブログ記事を書く時間が取れなかった。だが、今は違う。音声入力を活用したことで、このようにブログ記事を更新できるのだから。

参考にしたもの

今回の手法は以下を参考にした。

音声入力×生成AI

この手法を知ったのはハイパー起業ラジオの以下の回。生成AIと音声入力を組み合わせて、たった15分程度でポッドキャストの台本を作り上げたという。

この手法を聞いた時、なぜ自分で気づけなかったのかという悔しさが込み上げてきた。

なぜなら、俺自身がChatGPTの会話モードで似たようなことをやっていたからだ。散歩中のアイデアや旅の体験を話しかけて整理してもらい、それを文章化してもらっていた*5。しかも、音声入力自体にも以前から興味があって、勝間和代の「手入力より圧倒的に早い」という言葉に惹かれて、実際に試してみたこともある。

だが、そこで思考は止まってしまった。テキスト入力で考えを整理する習慣が染みついていて、まとまった文章を話すのが難しい。専門用語の認識精度の問題もあって、結局「慣れたキーボードのほうが楽だ」と諦めてしまったのだ。

考えてみれば、それは単なる思い込みだった。生成AIは不完全な入力でも文脈を理解して補正してくれる。完璧な音声入力など必要なかったのだ。「テキスト入力欄に音声で入力するなんて」「音声を使うのは会話モードでやるもの」──そんな固定観念が、目の前にあった可能性を見えなくしていたのである。

今回のネタは知っている人にとっては今更だろう。実際、検索してみたら勝間和代は1年前に挑戦していた*6。だが俺は気が付かなかったし、今回知ったときは「もっと早く教えてくれよ」と思ったので書くことにした。

ショートカット

以下の二つを組み合わせることで、ChatGPTとの連携とObsidianへの保存ができた。

前者の記事では音声入力専用のためWhisperを使っているが、俺はURLをコピペしたかったのでテキスト入力欄を表示させ、音声入力はiOSのを使っている。

投げ銭代わりにショートカットの配布。

以下は投げ銭のコーナー。支払った人には上で紹介したiOSショートカットの最新版をプレゼント。Obsidian用ではあるが、使っていなくてもiCloud DriveにMarkdown形式で保存されるだけでも価値はあると思う。プロンプトが古いバージョンはnoteで配布している。

*1:最初PCで音声入力していて、別の記事を参照しようとクリックした瞬間に入力が止まったのはショックだった。

*2:逆にいえばPCは資料参照専用に使えるので、マルチディスプレイが使えない環境でも画面を細かく切り替えなくていいのが助かる。

*3:あまりにも音声入力×生成AIが楽すぎるので、会社でもブツブツ喋るおじさんになっている。

*4:最新会の話はこれ 週プレでチョコレートについて書き、ココアを飲む|honeshabri

*5:年末年始の旅行でも大活躍だった 旅行中でのChatGPTの使い方3つ|honeshabri

*6:音声入力間違いの修正をチャットGPTに託してみる 勝間和代オフィシャルサイト

この続きはcodocで購入