エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Wikipedia を word2vec する - 終末 A.I.
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Wikipedia を word2vec する - 終末 A.I.
前回、青空文庫で word2vec を試してみましたが、結果を見ての通り、作家によって類似する単語が違った... 前回、青空文庫で word2vec を試してみましたが、結果を見ての通り、作家によって類似する単語が違ったり、そもそも語彙が少ないため、あまり汎用性のある結果を得ることはできませんでした。 ksksksks2.hatenadiary.jp そこで今回は、日本語 Wikipedia のダンプデータを使用して、word2vec で学習させてみました。 Wikipedia ではこちらに記載されているように、Wikipedia 上で作成された様々なデータのダンプデータを配布しています。主なものだと、全ページの要約や全文、変わったものだと、ページ間のリンク関係のデータなどが含まれています。 今回は、日本語の最新情報から全文情報を取得して、使用しました。ちなみに、このデータは圧縮時でも2GB、展開すると10GB近くあるデータになります。このデータは XML と wiki 記法で記述されておりそのままで