Submit Search
ジャストシステムの形態素解析技術
•
32 likes
•
23,908 views
JustSystems Corporation
Follow
ジャストシステムの形態素解析技術
Read less
Read more
1 of 17
More Related Content
ジャストシステムの形態素解析技術
1.
JustTechTalk #01 ジャストシステムの 形態素解析技術
2.
2 ATOK、ConceptBaseで培ったノウハウと 機械学習を融合した日本語解析エンジン JustSystems Morphological Analysis
Technorogy ”ジャストシステムの形態素解析技術”
3.
統計的手法による形態素解析 表記 品詞 にわ 一般名詞 に
助詞 わに 一般名詞 にわとり 一般名詞 が 助詞 い 上一段動詞 る 活用語尾:終止 。 句点 区切って、品詞を選ぶ 系列ラベリング問題 隣接する要素の情報を利用 (n-gram) 必要なリソース • 辞書 • 教師データ(学習コーパス) (ほかのやり方もあります) 3
4.
分析が大事 統計手法 ○すぐに精度がだせる × 少数で深刻な問題は数値ではみえない ちゃんと事例をみる • 精度がいいとおもったら…… →
同じフレーズが何度も出現 • ユーザーにあわせた評価 4
5.
新規手法開発より辞書 辞書追加 >>>>>> あたらしい学習手法 5
6.
でもむやみに辞書にいれると…… 「まれ」を人名で登録 辞書登録には ノウハウが必要 6 表記 品詞 こういう 連体詞 例
一般名詞 は 助詞 まれ 固有人名 で 助動詞 は 助詞 な 補助用言 い 活用語尾:終止
7.
登録する? しない? 説明性 • 一貫性 •
規範性? 新語 一過性かどうか 弊害 辞書の肥大化、誤解析、メンテナンス性 7
8.
人手の介入 クリティカルな事例 どうしても直さなきゃいけない 機械学習では • 挙動を説明できない • 学習のたび結果が変わる どこかに介入できるところをつくる •
ルールによる補正 • ユーザー辞書 8
9.
JMATのコーパス タグ付きコーパス • 精密にタグ付け • メンテナンスできるのは数万文まで? 誤解析コーパス 言い回しコーパス 標準的な機能表現を網羅したコーパス タグなしコーパス 9
10.
JMATの品詞 ユーザーがみる品詞 • わかりやすい分類(学校文法を基礎) • たくさんあるとつかいこなせない 解析器の内部状態 •
精度の確保にはあるていどの粒度が必要 • JMATでは600以上を定義 • コーパスはこちらで作成 10
11.
チューニング 能動学習 間違ったところだけを追加学習 部分アノテーション学習 一部だけタグをつける 人手の調整 修正ルール、辞書調整、未知語処理調整など 11
12.
1212 ベース学習 Webテキスト コーパス クラスタリング フィルタリング 誤解析しそうな テキスト群 高精度 タグ付きコーパス (数万文) 自動タグ付け コーパス (数百万文) 能動学習用 コーパス 部分アノテーショ ン学習 フィルタリング能動学習 JMATベース モデル できあが り なんやかんや 調整
13.
区切りの単位 区切り単位はアプリケーションによる • 長単位・中単位 意味、統語構造の処理用 • 短単位 検索用、後段処理の基本要素として 形態素
→ 単語 → 統語構造 • 語構成と統語構造は別レイヤー • まぜちゃいけないんだけど…… 13
14.
表記統制 軽量な単語識別 • 検索 • 後段処理 統制対象 •
異表記 • 送り仮名 14 たけのこ タケノコ 筍 竹の子 タケノコ
15.
短単位とまぜるとつらい 基本方針: 生物名はカタカナ きりん →
キリン、象 → ゾウ 短単位に切ると…… • マツバ/ガニ、カニ • カニでマツバガニが検索できない • しかたないので → 松葉/蟹、蟹 どうしても両立しない原則はでてくる 15
16.
まとめ 統計的手法 + 人手介入 辞書が大事 地道なリソース作成と調整の継続が必要 16
17.
NLPエンジニア募集 自然言語処理、機械学習を活用し、新規サービスの価値を高 めるための技術の選択・提案と、開発業務を担当していただ きます。 ■必須スキル ・自然言語処理技術もしくは機械学習を実務で利用した経験 ・Javaでの開発経験 ■歓迎スキル ・Pythonでの開発経験 ・Webサービスの開発経験 17