By signing up, you agree to receive email updates from IBM as well as the Terms of Service and Privacy Policy.

自然言語処理、また音声認識を学習するためのデータは各種の研究機関などから提供されています。 ここでは、それらのデータのありかをまとめておきます。他にもあるぞ、という情報がありましたらぜひお寄せください。 高度言語情報融合フォーラム(有料) 多様な言語資源、音声資源、ソフトウェアツールを提供してくれている団体です。ただし、ダウンロードには会員登録が必要です(入会金10万円だが、年会費などはなし)。 データセットはこちらから参照できます。研究機関限定ですが、楽天のデータなどもあります。 ALAGIN 言語資源・音声資源サイト 資源 それと、毎年開催されている音声認識・音声対話技術講習会に優先枠で申し込むことができます。この講習会は音声対話を行おうとしている人なら一回入っておくといい講習会なので、こちらもおすすめです。 コーパス開発センター(有料) その名が正に体を表すサイト。書き言葉、話し言葉
動機 elix-tech.github.io の記事を読んで、「可視化」の項が面白いなーと思って。 引用されている図によると、人間の目にはまったく出力クラスとは関係なさそうに見える画像でもCNNによる分類器は騙されてしまう、ということのようだ。 なるほど分類モデルの方を固定しておいて入力を変数として最適化していけば任意の出力に最適な入力を得ることができるのか、と。 自分でもやってみることにした。 分類モデル TensorFlowによるDeep Learningでのアイドル顔識別モデルの性能評価と実験 - すぎゃーんメモ の記事で使ったモデルとデータセットで、ここではCross Validation用にデータを分けずに7,200件すべてを学習に使い20,000 step進めたものを用意した。 このモデルは学習したアイドルたちの顔画像に対してはかなりハッキリと分類できるようになっていて、試しに
気づき そもそも文字起こしとは そもそも文字起こしとは(2) 音声入力による文字起こしの実践法(Mac) 1. 素材音声の再録音 2. Soundflowerの準備 3. Mac内部で再生+聞き取り 4. 音声ファイルが終わるまで再読み込みなどのケア まとめ 〜そしてtextlint編へ〜 続編 気づき 少し前にこのようなことに気がついた。 ひえーすごい発見をした。音声入力で文字起こし作業をナシにできないかなあ、と思って対談の音声データをiPhoneのそばで大音量で再生したけど全然認識せず。ですよねー、と一旦諦めた後にふとイヤホンで聴きながらシャドウイング的に自分で喋ったらだいぶテキスト化された(笑)これはいいのでは— Hiroaki Kadomatsu (@note103) 2016年7月6日 「いずれそうなるだろう」とは思っていたが「まだしばらく先のことだろう」とも思っていた現実が、想
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く