[B! 自然言語処理] terurouのブックマーク

terurou id:terurou

自然言語処理に関するterurouのブックマーク (8)

自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ！
概要この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日本"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。自然言語処理と言うと耳慣れない言葉かもしれませんが、実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。自然言語処理の適用範囲や要素技術は幅広いのですが、その中でもword2vecの特色は、冒頭でも挙げたように「意味の計算」が出来ることです。これ
terurou 2014/03/10
自然言語処理

word2vec

python
リンク
Yotaro Watanabe - ChaPAS: Yet Another Japanese Predicate Argument Structure Analyzer
chapas-0.742.tar.gz (全ファイル, size: 1.13GB)ChaPASはフリーソフトウェアです。修正BSDライセンスに従って利用または再配布することができます。ただし、付属のモデルファイル（models以下）、解析に利用している京都大学格フレームver1.0 （resources/kucf以下）、ALAGIN文脈類似語データベース付属の確率的クラスタリングの結果データ（resources/sw以下）、大規模コーパスから得られた確率的クラスタリングの結果データ（resources/ncv以下）はこのライセンスには含まれません。モデルファイルは、ipa品詞体系のデータで学習したものです。確率的クラスタリングの結果データは、オリジナルから30%以上改変したものです。 chapas-models.tar.bz2 (学習済みモデルファイルのみ, size: 125MB)c
terurou 2013/11/30
「ChaPASはJavaベースの日本語述語項構造解析器です。」

java

自然言語処理

ChaPAS
リンク
MapReduceとHadoopとPythonとmecab - 涼風庵　楡
非常に色々と応用が利きそうで面白かったので自分用のメモ。昔の専攻がらみで焼けぼっくいに火が付きそう。 HadoopのMapReduceとPythonとmecabを組み合わせてテキストマイニングの取っ掛かりのお話。条件としては分散のHadoop環境が構築できていることデータノードでpythonが正常に動くことデータノードにmecabがインストールされていること。です。 Hadoop構築はHadoopのドキュメントを参照しました。 Hadoopで動くPythonのMapReduce環境はこのblogを参照しました。 mecabはmecabの公式ドキュメントを参照しました。環境構築の話を書くと長くなるので端折ります。実行したmapperが以下のスクリプト mapper.py #!/usr/local/bin/python # -*- coding: utf-8 -*- impor
terurou 2011/05/30
おもしろそう

Hadoop

python

自然言語処理

MeCab
リンク
日本語形態素解析 - Japanese Morphological Analyzer
Visited: 5294 アルゴリズムによる日本語形態素解析(Japanese Morphological Analyzer by Algorithm) このプログラムは、テスト・研究用の短いプログラムで、辞書を使わずにアルゴリズムのみで解析しているので、正確な解析はできません。語頭・語末を漢字・カタカナ・平仮名の区別を頼りに解析しているので、平仮名ばかりの文に対応できません。言語解析の困難さがこのプログラムからもお分かりになるでしょう。正しく解析するには、人間が持っている知識、すなわち日本語の規則、辞書、実世界における知識、推論などが必要です。その知識とは膨大な量のものですが、まずは部分的にも妥当な規則、辞書を作ってみることが大切でしょう。アルゴリズムだけからなるこのプログラムとは異なり、今研究中の規則や辞書の構成は言語学的にも妥当と思えるかどうか、という観点から研究しています
terurou 2008/06/24
辞書なしアルゴリズムのみの形態素解析。

自然言語処理

japanese

形態素解析

webservice
リンク
ヤフー、かな漢字変換Webサービスを公開--MS-DOS時代に全盛の「VJE」をAPI化:ニュース - CNET Japan
ヤフーは5月27日、「Yahoo!デベロッパーネットワーク」で「かな漢字変換Webサービス」を公開した。 Yahoo!デベロッパーネットワークは、インターネット関連の開発者向けにYahoo! JAPANの技術仕様を公開し、一部のサービスやデータベースへ無料（1日当たり5万リクエストまで）でアクセスできるサービスだ。これを使うことによって、外部の開発者はYahoo! JAPANのデータベースを活用したサービスやソフトウェアを開発することができ、ウェブ検索をはじめ、現在10分野のWebサービスを公開している。今回公開されたかな漢字変換Webサービスは、日本語入力プログラム「VJE」（VACS Japanese Entry）をAPI化した。VJEは、もともとバックスが開発したプログラムで、MS-DOS全盛の時代には強い支持を受けたプログラムだ。バックス社は2006年6月に休眠しているが、それ以
terurou 2008/06/03
yahoo

webservice

日本語

自然言語処理

webapi
リンク
TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア
TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!の形態素解析のようにサーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。デモ日本語の文章を入力し、解析ボタンをクリックしてください。ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src
terurou 2008/02/12
軽量な分かち書きライブラリ

javascript

library

MeCab

自然言語処理

形態素解析
リンク
[を] 転置インデックスによる検索システムを作ってみよう！
転置インデックスによる検索システムを作ってみよう！ 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装はパフォーマンスを無視すれば意外と簡単です。それを示すために Perl で簡単な検索システムを作ってみました。検索方式は転置インデックス(Inverted Index)、ランキングには TF-IDF[2005-10-12-1] を用いました。検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか？ 3 ペンギン大好き 4 こんにちは。いかがおすごしですか？ 5 ここ最近疲れ
terurou 2007/11/28
perl

全文検索

自然言語処理

search

アルゴリズム
リンク
「圧縮新聞」を作った - phaの日記
僕は昔からロボットがロボットなりに変な文章を生成して喋ったりする人工無脳とかそういう仕組みが好きで、最近はそのへんの仕組みを勉強していました。それで大体仕組みの基本はわかったので簡単なスクリプトを書いてみたよ。圧縮新聞このスクリプトはウェブ上にある新聞社とかのニュースの文章を元にして、バラバラにして圧縮してまとめた文章を作るので、ざっと眺めるだけでその日起こった事件の全体が何となくわかるかもしれません。リロードするたび文章は変わります。生成例しょうゆ・みそ業界大手のＮＯＶＡ（大阪市）が入った郵便小包は、北朝鮮の鉄道網を連結する計画だったらしいことが２１日、わかった。タンクに灯油を補給した。検案の結果、財政難などをほとんど与えずに６者協議の外相会議の早期再開に期待を表明した国と製薬会社に賠償を求めた。その後、死亡した。しくみこういった人工無脳みたいな文章生成をするには形態素解析と
terurou 2007/11/25
php

形態素解析

自然言語処理

マルコフ連鎖
リンク
1