You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
textlintのルールを色々書いていて自然言語のマッチの問題がいくつかありました。 textlint-ja/textlint-rule-preset-JTF-style: JTF日本語標準スタイルガイド for textlint.は基本的に正規表現をベースに実装していました。 正規表現で自然言語に対してマッチするのは簡単でいいのですが、意図しない範囲にマッチすることもあるためfalse-positiveになりやすい問題がありました。 一方、ですます or である調の混在をチェックするtextlint-rule-no-mix-dearu-desumasuでは、kuromoji.jsなどで形態素解析した結果を使っています。 形態素解析をすることで(正しい日本語なら)より正確にマッチできます。 しかし、形態素解析のトークンに対してマッチする処理やその情報を元に置換するのは結構面倒です。 kur
研究開発部の原島です。部のマネージメントのかたわら、自然言語処理関連の開発に従事しています。本エントリでは、最近社内で開発した自然言語処理システムを紹介します。 ■ 「しょうゆ」のバリエーションは 100 種類以上 クックパッドで以前から解決したかった課題の一つに材料の名前(以下、材料名)の正規化があります。 クックパッドのレシピは複数の材料から構成され、各材料は名前と分量から構成されています。例えば、上のレシピの一つ目の材料は「豚薄切り肉」が名前で、「200g」が分量です。 さて、この材料名はこのレシピでは「豚薄切り肉」という表現でした。しかし、他のレシピでは「豚うす切り肉」という表現かもしれません。「豚うすぎり肉」や「ぶた薄切り肉」、「豚薄ぎり肉」等の表現もありえますね。 これは異表記同義(いわゆる表記揺れ)の問題ですが、同様の問題は他にも沢山あります。例えば、以下のようなものです。
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 少し時間が経ってしまいましたが、Sentencepiceというニューラル言語処理向けのトークナイザ・脱トークナイザを公開しました。MeCabやKyTeaといった単語分割ソフトウエアとは趣旨や目的が異なるソフトウェアですので、少し丁寧にSentencepieceの背景、応用、実験結果等をお話したいと思います。 サブワード ニューラル言語処理の中心となる要素技術にLSTM (RNN)があります。テキスト(トークン列)を低次元のベクトルに符号化したり、ベクトルからテキストを復号化したり、その応用範囲は多岐にわたります。ニューラル機械翻訳 (N
統計的自然言語処理を徹底的に論じた教科書 原著が刊行されたのは18年ほど前になるので、本書の内容の一部は歴史的な記録となっており、現在の状況に照らして異なる含意を読み取るべき言及もある。そのような若干の注意書きを要するとはいえ、本書の重要性、今日性は高い。 学問的基礎の記述の豊かさに加えて、マルコフモデルや確率文脈自由文法など、統計的自然言語処理の基盤となる概念について、丁寧な式の導出を含めたわかりやすい説明がなされている。そのような理論的基盤と合わせて、n-グラムモデルにおけるスムージングや分類学習における過学習など、実際に研究を進める上では重要でありながら、えてして短めの注意書きになりがちな部分についても、十分な量が割かれている。 「今」の自然言語処理研究をその基礎から正しく理解し、その上に新たな積み上げを行うための基盤を提供してくれる良書となっている。 [原著名:Foundation
※ユーザ登録は無料です. 本電子図書館のご利用にあたっては「情報処理学会電子図書館利用規約」をご遵守下さい。 掲載されているコンテンツには無料のものと有料のものがあります。有料コンテンツのご購入はクレジットカード決済のみとなります。 領収書をご希望の方は「電子図書館専用領収書発行依頼」(送信フォーム)にてご連絡ください。 複写および転載をされる方へ一般社団法人情報処理学会では複写複製および転載複製に係る著作権を学術著作権協会に委託しています。当該利用をご希望の方は、学術著作権協会が提供している複製利用許諾システムもしくは転載許諾システムを通じて申請ください。 尚、本会会員(賛助会員含む)および著者が転載利用の申請をされる場合については、学術目的利用に限り、無償で転載利用いただくことが可能です。ただし、利用の際には予め申請いただくようお願い致します。
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? さまざまなニュースアプリ、ブログ、SNSと近年テキストの情報はますます増えています。日々たくさんの情報が配信されるため、Twitterやまとめサイトを見ていたら数時間たっていた・・・なんてこともよくあると思います。世はまさに大自然言語時代。 *from [THE HISTORICAL GROWTH OF DATA: WHY WE NEED A FASTER TRANSFER SOLUTION FOR LARGE DATA SETS](https://www.signiant.com/articles/file-transfer/the-
ASPEC ( Asian Scientific Paper Excerpt Corpus ) Notice: ASPEC data can be used during the fiscal year (April 1 to March 31) by applying on an annual basis. You can also continue to use the data by submitting an application to the contact email address at least one month before the end of the fiscal year. Now, on April 1, 2021, the Terms of Use will be revised to simplify the application process. I
>>> import MeCab >>> tagger = MeCab.Tagger('-Owakati') >>> print tagger.parse('にわにはにわにわとりがいる') にわ に はにわ にわとり が いる # ちょっと間違ってる JUMAN 本システムは,計算機による日本語の解析の研究を目指す多くの研究者に共通に使える形態素解析ツールを提供するために開発されました.その際, 学校文法が計算機向きではないという問題を考慮し,使用者によって文法の定義,単語間の接続関係の定義などを容易に変更できるように配慮しました JUMAN - KUROHASHI-KAWAHARA LAB 単なる形態素解析だけでなく、Wikipediaから抽出した辞書やウェブから獲得した自動辞書による結果が付与されるため、MeCabの辞書では未知語になってしまうような固有名詞などに強い。また、動詞に対し
[RubyML | RubyDataScience | RubyInterop] Awesome NLP with Ruby Useful resources for text processing in Ruby This curated list comprises awesome resources, libraries, information sources about computational processing of texts in human languages with the Ruby programming language. That field is often referred to as NLP, Computational Linguistics, HLT (Human Language Technology) and can be brought i
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? **自然言語処理に前処理は不可欠です。**テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: [Deep learning for computational biology](http://msb.embopress.org/content/12/7/878) 本記事では自然言語処理における前処理の種類とその
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く