昨年International Journal of Corpus Linguistics誌にNaixing Wei氏とJingjie Li氏による、MIスコアをtrigram以上のn-gramに拡張するという論文が掲載されました(こちら)。読んでみて面白そうだと思ったので、Rで実装しました。以下で公開しています。parse()やeval()の使い方、直接必要ではないのにターム文書行列を作成している点など、不満な点は多々あるのですが、手を入れる時間がしばらくは取れなさそうなので、公開します。誤りや不自然な点等ありましたら是非お知らせください。 newMI 以下のようにして走らせることができます。詳細はここをご覧ください。 # 必要なパッケージの読み込み。ない場合はinstall.packages()でインストール library(RWeka) library(tm) library(dat