今週やってくることの一つとして、学習データを作成して実際にSVMで学習させてみる、というのがある。 そのためのソフトウェアとしてMeCabを利用する。 また、TermExtract という単語(名詞)に対する重み付けを行うためのPerlモジュールを利用する。 MeCabは形態素解析を行うソフトウェア。 TermExtractはMeCabやChaSenなどの処理結果から語句の重要度(TF・IDFなど)を計算する。 まずはMeCabのインストール ソースの入手先:http://mecab.sourceforge.net/src % ./configure --with-charset=utf8 % make % su # make install MeCab用の辞書も同様の手順でインストール 今回はIPA辞書を使うことにする ソースの入手先:http://mecab.sourceforge.