富士通研究所は11月24日、文章中の人名や組織名、地名などの固有名詞を高精度に抽出する技術を開発したと発表した。これにより、新聞記事から約97%の精度で人名を正しく抽出する。従来の抽出手法と比較して抽出ミスを60%近く減少できるという。 新聞の編集やウェブサイトの更新など大量の文書データを扱う業務では、キーワード検索やそれを用いた文書作成が業務の中で大きな割合を占める。しかし「川崎さん」や「川崎市」の「川崎」のような単語は、「人名」か「地名」かの区別がつきづらく、目的のキーワードとは無関係な結果が数多く表示されてしまっていた。 そのため必要な情報を見つけるのに手間がかかっていたほか、人名や地名などの辞書データを人手で作成しなければならず、辞書の自動生成が大きな課題となっていた。 今回開発された技術は、精度の高い固有名詞を抽出するため、固有名詞辞書の自動生成手法と生成した辞書を用いる抽出を実