大規模テキストデータ(もう昨今 GB 単位はそんな大規模ではなく、TB 単位以上)を対象とした研究をしている自分が言うのもなんだが、そもそも自然言語処理の研究ってそんなに大規模化する必要はないし、データ量を増やしたからといってそんなに劇的に精度が変わったりするわけではない(むしろ扱いに独特なコツが必要なので、うかつに手は出さないほうがいい)、と思っているのだが、なんでみんな大規模化したがるのかなぁ、と不思議だった疑問に得心がいった。 もちろん増やしたデータ量に対し log スケールで改善する、というような微弱な改善効果はあるのだが、そんなことよりはアルゴリズムを変えたり、用いるデータの質を上げたり、もしくは使う素性を工夫したり、はたまた全部同じだけどパラメータだけチューニングしたりするほうが大幅に精度に影響したりするのは世の常である。 で、今晩見た爆問学問で、先週の情熱大陸と同じくノーベル