タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

mecabに関するheitattaのブックマーク (1)

  • きまぐれ日記: MeCab を使って N-gram を取り出す。

    Senna や HyperEstraier といった最近の検索システムでは n-gram インデックスが使われることが多くなってきました。正確には文字 n-gram ですが、(単語 n-gramとの対比) ようするに、テキスト中の n 以下までのすべての部分文字列を取り出して index に使う処理のことを言います。 n-gram の取り出しは、すごく簡単で、プログラミングしてもたいした量にはなりませんが、ここはあえて MeCab だけでやってみたいと思います。 まず、mecab-0.91 (src/tokenizer.cpp) に以下のパッチを当てます。(もしくは最新の CSVからソースを拾ってきます) 実際この記事を書くにあたって見つけたバグです。 4c4 < $Id: tokenizer.cpp,v 1.13 2006/05/03 07:56:28 taku-ku Exp $; --

  • 1