タグ

mecabに関するgologo13のブックマーク (12)

  • MeCab: オリジナル辞書/コーパスからのパラメータ推定

    概要 学習用コーパスからパラメータ(コスト値)を推定することができます. MeCab 自身は品詞体系に非依存な設計になっているため, 独自の品詞体系, 辞書, コーパスに基づく解析器を作成することができます. パラメータ推定には Conditinoal Random Fields (CRF) を使っています. 処理の流れ データフロー図は次のようになります. パラメータ推定には以下のサブタスクがあります. Seed辞書の準備 設定ファイルの準備 dicrc char.def unk.def rewrite.def feature.def 学習用コーパスの準備 学習用バイナリ辞書の作成 CRF パラメータの学習 配布用辞書の作成 解析用バイナリ辞書の作成 評価 それぞれ順に説明していきます. Seed辞書の準備 MeCabの辞書は CSV で記述されます. Seed 辞書と配布辞書の

    gologo13
    gologo13 2012/03/24
    mecab って学習できたのか。 mecab-cost-train
  • きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

    MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。 ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニング するといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力 があればコスト値を機械学習的なアプローチで構築することができます。 さらに、正解データを人手で作る必要は必ずしもありません。 すなわち、Yahoo!形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。 ふだんはあま

    gologo13
    gologo13 2012/03/24
    interesting.
  • livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク

    突然ですが,mecabの辞書 (mecab-ipadic) をデフォルトのまま使って,mecab意外と使えねぇとか文句言ってる悪い子はおらんかね? mecab-ipadic は比較的お行儀のよい日語をベースに作られているので,そのままでは web上の口語文体のテキストはうまく扱えないことがあります。来は教師データを用意し,学習させるといった手法を使うのが正攻法だと思いますが,とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。 人間の話す言語には,動詞の語幹や名詞には日々新しく語彙が増えるけど,助詞や活用のルールは簡単には変化しない,という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は,名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。 ただ,辞書への単語追加はここにある通り簡単にできるのですが,単語

  • きまぐれ日記: MeCabがiPhone,OSXに載っていると言うのは止めようと思う

    iPhoneのSDKの条項に変更が加わり、Flashのクロスコンパイルを含む 純正開発ツール以外で作成されたバイナリの配布が禁止となるようです。 世間でも散々言われていますが、この変更は正直とても残念です。 Apple的には「製品のクオリティーが保てないから」という理由だそうですが、 WindowsiTunesが意味もなくQuickTime入れたり、Windows非標準のUIを 使いまくっていて、お世辞にもクオリティーが高いとは言えないのを棚にあげて、 クオリティー云々と言い訳できるのでしょうか。アプリなんて所詮 玉石混淆。決めるのはユーザです。 MeCabは以前GPL/LGPLでした。Appleを含む複数の方からこのライセンスでは 使いにくいと言う指摘をうけ、前職の同僚と協議をしながらBSD/LGPL/GPL のトリプルライセンスにしたという経緯があります。結果としてこの変更は うまく

  • 形態素解析辞書 UniDic

    人気デベロッパー Play’N Go は、2017年にユニークなスロットを発売しました ムーンプリンセス. オンライン スロットゲーム ムーンプリンセス このゲームは、そのユニークなオプション、シンプルな操作性、アニメをモチーフにしたカラフルなグラフィックにより、瞬く間にプレイヤーから人気を集めました。 スロットマシンの ムーンプリンセス は、漫画『美少女戦士セーラームーン』のテーマを明らかにする。第1巻は1992年に発売され、現在も人気があります。を可能にします MoonPrincess は、長年にわたり最高のスロットのリストをリードし、プレイヤーに寛大な配当だけを提供し、ゲームプレイへの関心を保証します。 すべてのシンボルが雰囲気を強調する オンライン スロットゲーム ムーンプリンセス, 心地よいサウンドトラックがゲームプレイを引き立て、音楽をパーソナライズできるため、ユーザーはスロッ

  • IPA、NAIST、UniDic、JUMANの辞書実演比較(Mecab)

    以下のフォームに文章を入力して「解析」ボタンを押下すると、チェックした辞書を使用したMeCabの解析結果が表示されます。 実行回数は1つのIPアドレスに付き1日30回に制限させて頂いております。また解析する文字列の長さの上限は512文字です。すいません、レン鯖なので無茶はできんとです。あと、Firefox3.5,Chrome3,IE8で動作を確認しています。古典的ブラウザでは動作しないかもしれません。 MeCab0.98を使用しています。解析を実行した文字列については一切のログを取っていませんので安心してお使いください。 IPA (mecab-ipadic2.7.0-20070801) NAIST (mecab-naist-jdic-0.6.1-20090630) UniDic現代語版 (unidic-mecab-1.3.12) UniDic近代文語版 (UniDic-MLJ-mecab_

  • MeCabのRubyバインディング (マルッと!)

    MeCabのRubyバインディングを試してみました。 まずは、下記のページを参考に、ダウンロードしてインストール。 http://mecab.sourceforge.net/bindings.html http://sourceforge.net/project/showfiles.php?group_id=177856&package_id=205294 付属のテストコードを見てみる。 #!/usr/bin/ruby require 'MeCab' sentence = "太郎はこのを二郎を見た女性に渡した。" begin print MeCab::VERSION, "\n" c = MeCab::Tagger.new(ARGV.join(" ")) puts c.parse(sentence) n = c.parseToNode(sentence) while n do print

  • MeCab: Yet Another Japanese Dependency Structure Analyzer

    スクリプト言語のバインディング $Id: bindings.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 各種スクリプト言語 (perl, ruby, python, Java) から, MeCab が提供する形態素解析の機能を利用可能です. 各バインディングは SWIG というプログラ ムを用いて, 自動生成されています. SWIG がサポートする他の言語も 生成可能だと思われますが, 現在は, 作者の管理できる範囲内ということで, 上記の4つの言語のみを提供しております. インストール 各言語バイディングのインストール方法は, perl/README, ruby/README, python/README, java/README を御覧下さい. とりあえず解析する MeCab::Tagger というクラスのインスタンスを生成し, pa

    gologo13
    gologo13 2010/04/06
    SWINGによるいろんなLLへのバインディング
  • mecab-skkserv MeCab を使ってかな漢字変換

    mecab-skkserv とは mecab-skkserv は, 形態素解析器 MeCab を用いたシンプルな仮名漢字変換サーバです. SKK は通常,「単語単位」の変換のみをサポートしますが, mecab-skkserv では, 「文単位」の変換が可能となります. 目次 特長 変更点 ダウンロード インストール 使い方 辞書への単語登録 注意事項 TODO リンク 特長 SKK は通常,「単語単位」の変換のみをサポートしますが, mecab-skkserv では, 「文単位」の変換が可能となります. 連文節を含む比較的長い入力でもそれなりに賢く変換してくれます. 単語連接コストや単語生起コストは, HMM に基づく確率的な推定に基づいて 与えられています. MeCab が出力する N-best 解 を変換候補として用いており, 通常の SKK よりは 多くの変換候補をそれなりのランキン

  • mecab-gree-20060411.ppt

    MeCab 汎用日形態素解析エンジン 工藤 拓 アジェンダ 形態素解析技術 辞書引きのアルゴリズム、データ構造 曖昧性の解消 MeCab の開発裏話 歴史 設計方針 汎用テキスト変換ツールとしての MeCab 恐ろしく汎用的! 「意外な」使い方 これから 形態素解析 文を単語に区切り、品詞を同定する処理 全文検索 Spam フィルタリング 人工無能... 以下の3つの処理 単語への分かち書き(tokenization) 活用語処理(stemming, lemmatization) 品詞同定(part-of-speech tagging) すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*

  • 大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe

    第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を,このブログで報告しておきたい.工藤氏の専門分野は統計的自然言語処理と機械学習であるが,日形態素解析エンジンMeCabの開発者であり,他にも自然言語処理関連の有益なツールや,Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど,時代をリードする研究開発者の一人である.彼の活動に興味があれば,彼のブログ「きまぐれ日記」は必見だろう. なお,当日は弊社側の不手際で,予定していた工藤氏の重要なデモをおこなうことができなかった.弊社はネットワーク会社であるにもかかわらず,ネットワーク

    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe
    gologo13
    gologo13 2010/04/06
    工藤氏はMeCabを汎用テキスト処理ツールとして考えて貰いたいようだ
  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

  • 1