タグ

自然言語処理に関するruiccのブックマーク (12)

  • Perl で自然言語処理

    2. 私(佐藤敏紀)の自己紹介名前:佐藤敏紀(さとうとしのり)ID : overlast(Twitter : @overlast)key : 自然言語処理/機械学習/検索/圧縮/順序学習blog : Overlasting::Life(http://diary.overlasting.net/) 略歴2005年4月〜2008年3月:東工大の奥村研究室自然言語処理(比較関係抽出)の研究2008年5月〜:某大手ポータルサイト自然言語処理・機械学習技術をWeb文書に応用類似文字列検索ライブラリの研究・開発スペル訂正システムの研究・開発2

    Perl で自然言語処理
  • Cybozu Open Source: Language Detection Library for Java

    The language-detection library is a Java opensource library to detect languages in which texts are written. (Also known as 'Language identification', 'Language guessing' and 'Language recognition') Features: 99% over precision for 40+ languages Detect language of a text using naive Bayesian filter Generate language profiles from Wikipedia abstract database file Supported languages (bundled 47 prof

    Cybozu Open Source: Language Detection Library for Java
    ruicc
    ruicc 2010/10/15
    naive bayesを用いた自然言語分類ライブラリ
  • 次の10年、「統計分析」こそテクノロジー分野でいちばんホットな職業になる

    The Top Three hottest new majors for a career in technology : Microsoft JobsBlog マイクロソフトの採用活動などを記しているブログ「Microsoft JobsBlog」に8月23日付けでポストされたエントリ「The Top Three hottest new majors for a career in technology」(テクノロジー分野でもっとも熱い、3つの専門性とは)では、長期的に見て次の3つがホットな分野だと挙げられています。 Data Mining/Machine Learning/AI/Natural Language Processing (データマイニング/機械学習人工知能/自然言語処理) Business Intelligence/Competitive Intelligence (ビジ

    次の10年、「統計分析」こそテクノロジー分野でいちばんホットな職業になる
    ruicc
    ruicc 2010/09/03
    統計勉強してないんだよな
  • 言語処理のための機械学習入門を読んだ - 射撃しつつ前転 改

    言語処理のための機械学習入門というが出版される、という話はtwitterで知っていたのだが、8月ぐらいに出るのだろうとばかり思っていたら、なんかもう発売されているらしい。Amazonでは早速売り切れていたので、某大学生協の書籍部まで行って購入してきた。おかげで、この週末は280円で過ごすハメになってしまった。 まだざっと眺めただけだが、 ラベルを人手でつけるのに隠れマルコフモデルと言うのは来はちょっとおかしいんだけどNLPの分野だとそう表現する事が多いよ 対数線形モデルと最大エントロピーモデルは同じものだよ 出力変数の間に依存関係がなければCRFではなく対数線形モデルとか最大エントロピーモデルと表現するべきだよ といった、これまでの教科書にはあまり載っていなかったような事が載っているのはとても良いと感じた。こういった情報は、これまではどこかの大学の研究室で学ぶか、もしくはウェブ上の資料

    言語処理のための機械学習入門を読んだ - 射撃しつつ前転 改
    ruicc
    ruicc 2010/07/12
    時間つくって読みたい。
  • 不自然言語処理コンテストのコーパスで乱数作文 - 木曜不足

    Baidu さんの不自然言語処理コンテスト( http://www.baidu.jp/unlp/ )が始まったそうで。 5-gram までのコーパスも配布ということでとりあえず応募するしないはおいといてダウンロードダウンロード……。 2-gram でマルコフ連鎖で文章生成って誰でも考えるよなあ。サンプルスクリプトもあるし、早い者勝ちだよなあ。 というわけでさっくり書いてみた。サンプルスクリプトをちょこちょこっと削って、ちょこちょこっと足しただけ。numpy 使ってます。 import sys, codecs, numpy sys.stdout = codecs.getwriter('utf_8')(sys.stdout) if len(sys.argv) != 2: print >>sys.stderr, "Usage: randomtext.py <2gm file>" exit(1)

    不自然言語処理コンテストのコーパスで乱数作文 - 木曜不足
  • 言語処理学会 The Association for Natural Language Processing Home Page

    会員専用ページ (※ 会員情報の登録ならびに会費の納入については株式会社プロアクティブのシステムを使用しています。) 最新のニュースレター Vol.15 No.2 (2008年8月8日発行) 入会案内 雑誌「自然言語処理」の原稿執筆案内 (「3. 原稿の送付」 について変更がありますのでご注意ください) 雑誌「自然言語処理」のバックナンバー 雑誌「自然言語処理」の論文査読倫理綱領 雑誌「自然言語処理」の広告掲載について ニュースレター 年次大会 会則・諸規定(会則,学会員向けメーリングリスト投稿規定など) 日英対訳用語集について 日英対訳用語集(csvファイル) 学会動向調査 以下の内容は、研究者の便宜のためつけておりますが、言語処理学会として 責任を取るものではありません。御了承下さい。 言語データ情報 JEITA言語処理技術専門委員会による言語イニシャティブのリスト その他関連

  • Google 音声検索と自然言語処理の未来 - 武蔵野日記

    先日 Google 音声検索を取り上げたことはあるのだが、再度取り上げてみる。 というのも、kmurakami さんが来週音声情報処理と自然言語処理についてのパネル発表に呼ばれているらしいのだが、自然言語処理と音声情報処理の人ってあまり交流がないよね、という話で、その理由と、今後どうしたらいいか、という意見を聞かれたので。 分野外の人から見ると、音声認識音声合成と、自然言語処理(かな漢字変換とか機械翻訳とか)は、どっちもコトバを使っているから同じように見えるかもしれないが、大学というのは思った以上に縦割り組織なので、研究室が違うと全くといってよいほど交流がない(教授のレベルではあるのだろうが、学生のレベルでは)。理由の一つとしては、自分の専門分野の国際会議なり論文誌なりに研究成果を発表するのが業績になり、自分の専門分野以外で発表しても評価のしようがないので、タコツボ化してしまう、というも

    Google 音声検索と自然言語処理の未来 - 武蔵野日記
  • mimitako.net [13]

  • 「圧縮新聞」を作った - phaの日記

    僕は昔からロボットがロボットなりに変な文章を生成して喋ったりする人工無脳とかそういう仕組みが好きで、最近はそのへんの仕組みを勉強していました。それで大体仕組みの基はわかったので簡単なスクリプトを書いてみたよ。 圧縮新聞 このスクリプトはウェブ上にある新聞社とかのニュースの文章を元にして、バラバラにして圧縮してまとめた文章を作るので、ざっと眺めるだけでその日起こった事件の全体が何となくわかるかもしれません。リロードするたび文章は変わります。 生成例 しょうゆ・みそ業界大手のNOVA(大阪市)が入った郵便小包は、北朝鮮の鉄道網を連結する計画だったらしいことが21日、わかった。タンクに灯油を補給した。検案の結果、財政難などをほとんど与えずに6者協議の外相会議の早期再開に期待を表明した国と製薬会社に賠償を求めた。その後、死亡した。 しくみ こういった人工無脳みたいな文章生成をするには形態素解析

    「圧縮新聞」を作った - phaの日記
  • 自然言語処理は Python がいちばん - 武蔵野日記

    現在大学1年生の人で3年後には NAIST に (というか松研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は PerlPython がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。 そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出

    自然言語処理は Python がいちばん - 武蔵野日記
  • 大規模データを基にした自然言語処理 - DO++

    人工知能問題研究会 (SIG-FPAI)でタイトルの題目で一時間ほど話してきました。 発表資料 [pptx] [pdf] 話した内容は - 自然言語処理における特徴ベクトルの作り方と、性質 - オンライン学習, Perceptron, Passive Agressive (PA), Confidence Weighted Learning (CW) 確率的勾配降下法 (SGD) - L1正則化, FOLOS - 索引を用いた効率化, 全ての部分文字列を利用した文書分類 で、スライドで70枚ぐらい。今までの発表とかぶっていないのはPA CW SGD FOLOSあたりでしょうか オンライン学習、L1正則化の話がメインになっていて、その両方の最終形の 確率的勾配降下法 + FOLOSの組み合わせは任意の損失関数に対してL1/L2正則化をかけながらオンライン学習をとても簡単にできるという一昔前

    大規模データを基にした自然言語処理 - DO++
  • 自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

    Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。 この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

    自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
  • 1