大好きなラーメン食べ歩きの効率を劇的に上げるべく、自然言語処理とR言語の勉強がてらラーメン屋さんのクラスタリングを行ってみた話。 自然言語処理は素人に近いので分析の妥当性はちょっと不安っていうか合ってるか否かもよくわからんが、のれん分けを自動で(たまたま?)見つけたりしながら分析を進めた過程を共有できればと思います。Read less
最近、「機械学習」や「自然言語処理」、といったキーワードを聞くことが多くなってきていると思います。 反面、すごそうだけどなんだか難しいもの、というイメージもあるのではないかと思います。そこで、今回は「自然言語処理」の一種であるトピックモデルを取り上げ、その仕組みを紹介するとともに、その実装方法について解説していきたいと思います。 (「機械学習」の方については、以前開催した勉強会の資料がありますので、興味があればそちらもご参照ください。) トピックモデルとは トピックモデルは、確率モデルの一種になります。つまり、何かが「出現する確率」を推定しているわけです。 トピックモデルが推定しているのは、文章中の「単語が出現する確率」になります。これをうまく推定することができれば、似たような単語が出てくる文章(=似たようなモデルの文書)が把握でき、ニュース記事などのカテゴリ分類を行ったりすることができま
業務経歴: 2012年株式会社サイバーエージェント入社。現在、子会社WAVESTにてJCJK向けメイクと自撮りの研究サービス「メイクme」のシステム責任者を担当。主にサーバサイドを担当しています。 概要 膨大なツイートから好みの女の子を見つけたいです。 好きな女の子のタイプのキーワードを入力すると、該当するアカウントを出力するステキなシステムを作ります。 作成したコードやデータはこちら https://github.com/inkenkun/tech_twitter 目次 1. 女の子だけのアカウントを取得したい Twitterには性別という属性がないため、まずは女の子のアカウントを何とかして大量に取得してこなければなりません。 おっさんとマッチングされても困りますからね。 1-2. 女性単語辞書を作る。 確実にこれは女性だってわかるアカウントを30個ほど目視で取得します。 そして抽出した
先日、自然言語処理の講演などをしていたときに、そもそも私なんかが話すよりも公開されているチュートリアルスライドを集めたほうが有用なんではないかと思い立って、これから自然言語処理を学びたい人や、ちょっと新しい分野を知りたい人向けに、日本語で読めるチュートリアルスライドを分野別にまとめてみました。 主に、学会のチュートリアルや招待講演、それから研究者の方のWebページなどを参照しながら作りました。 自然言語処理全般系の資料や、少し境界的なテーマは入っていません。 また、ぱっと読めるスライドだけにしています。 幾つか手前味噌な資料も載せてます・・。 頑張って集めてみましたが、思ったほど集まりませんでした。 作っていてわかったのですが、意外とスライドを公開している人は少ないようです。 埋もれてしまうのはもったいないですね。 いずれ、英語で読めるスライドを集めてみようと思います。 そっちはそっちで、
このページの短縮URLは http://www.ieice.org/~nlc/nlc15-jun.html です. 本イベントは終了しました.多数のご参加をありがとうございました. 電子情報通信学会「言語理解とコミュニケーション(NLC)」「思考と言語(TL)」合同研究会 プログラムを公開しました。皆様の参加をお待ちしております. 電子情報通信学会 言語理解とコミュニケーション研究会(NLC)・思考と言語研究会(TL)の合同研究会を2015年6月4(木),5日(金)に開催いたします. 【日時】 2015年6月4日(木)および5日(金) 【場所】 徳島大学 常三島キャンパス 工業会館 〒770-0814 徳島県徳島市南常三島町2-1 http://www.tokushima-u.ac.jp/kgk/ourhall/introduction.html 徳島大学常三島キャンパスへのアクセスはこち
単語感情極性対応表 日本語および英語の単語とその感情極性の対応表を、 研究目的の利用に限り公開します。 感情極性とは、その語が一般的に良い印象を持つか(positive) 悪い印象を持つか(negative)を表した二値属性です。 例えば、「良い」、「美しい」などはpositiveな極性、 「悪い」、「汚い」などはnegativeな極性を持ちます。 感情極性値は、語彙ネットワークを利用して自動的に計算されたものです。 もともと二値属性ですが、-1から+1の実数値を割り当てました。 -1に近いほどnegative、+1に近いほどpositiveと考えられます。 リソースとして、日本語は「岩波国語辞書(岩波書店)」を、 英語はWordNet-1.7.1を使わせていただきました。 こちらからダウンロードしてください→[日本語] [英語] フォーマットは、各行が一単語に対応し、 見出し語:読み:品
CV - 研究 計算言語学. 自然言語処理, 特に機械学習の応用. 文書分類,多義語の曖昧性解消,文書要約, テキストの感情情報処理など。 著書:「言語処理のための機械学習入門」,コロナ社.サポートページ - 論文・発表・外部予算 (English) - 講義 計算言語学 (前期木曜日3-4時限開講G311) (※ 現在は開講しておりません) 2014年度講義ページ 2015年度講義ページ 2015年度講義ページ 2016年度講義ページ 2017年度講義ページ Back to the homepage of Okumura-Takamura lab. 高村大也 〒226-8503 神奈川県横浜市緑区長津田町4259 東京工業大学 科学技術創成研究院 未来産業技術研究所 奥村高村研究室 phone & fax 045-924-5295 E-Mail : takamura
MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日本語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日本全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia 日本語版やはてなキーワードなどです。 困ったことに、新語辞書を生成
NTTデータは、2015年のバレンタインデーに起きた「きのこたけのこ戦争」をデータ解析。自社で開発している高精度テキスト分析API「なずきSA」を用いて調査した。 「なずきSA」はインターネット上の日本語テキストデータを解析するツール。単語などからポジネガ分析(ポジティブ・ネガティブ分析)するだけでなく、分野や感性を示す表現の判定を行い、高い精度で評価情報を抽出することができる。例えば、「ヤバイ」という単語はポジネガどちらの感情でも使われ得る言葉だが、前後の文脈などからポジティブに使われているか、ネガティブに使われているかを判定可能となっている。 「なずきSA」の仕組み 例1 例2 今回調査の対象となったのは、2015年2月1~17日までのツイート。最初に、バレンタインのソートとして「もらった」「あげた」「プレゼント」といったアクションの単語と、「きのこ」「たけのこ」という名詞でツイートを
個人のお客様0570-550-760法人・個人事業主のお客様0570-550-922年中無休 ( 10:00 ~ 18:00 ) 今回のはてなニュース連動企画について 2015-1-8 パソコン工房ECサイトへのご来店、誠にありがとうございます。 一号です。 某日、パソコン実験工房の第一回の「word2vec実験」でお世話になった株式会社はてなさんから「RakutenMAというツールが熱いですよ」という情報を頂きました。 「何ですかそれ?」 全然知りませんでした。 毎回、私達とは異なる視点から情報を頂けてありがたいです。 詳しく話を聞くと処理に結構時間がかかるという事で、今回も連動企画で実験する事になりました! RakutenMAとは RakutenMAは、楽天技術研究所から2014年8月にリリースされたJavaScriptによる中国語と日本語に対応した形態素解析器です。 単語の切出しのみ
1. 自然言語処理のための Deep Learning 東京工業大学 奥村・高村研究室 D1 菊池悠太 @kiyukuta at 2013/09/11 Deep Learning for Natural Language Processing 13年9月28日土曜日 3. 2つのモチベーション - NLPでニューラルネットを - 言語の意味的な特徴を NN→多層×→pretraining→breakthrough !! 焦って早口過ぎてたら 教えて下さい A yet another brief introduction to neural networks http://www.slideshare.net/yutakikuchi927/a-yet-another-brief-introduction-to-neural- networks-26023639 13年9月28日土曜日
朝、娘をお風呂に入れておかゆを食べさせ、ミルクを飲ませ、絵本を読んでいたら眠そうにしていたので、一緒に昼寝をする。娘が寝ているときは好きなことができる時間なのだが、寝かしつけていると、ついつい一緒に寝てしまうのである。(周りが寝ていた方が、娘も空気を読んで寝る、ということもある) 少し前の記事だが Machine learning is the new algorithms というのを読んで考えさせられた(初めて読んだときよりコメントが増えている)。確かに機械学習は現代においてはアルゴリズムと同様に、コンピュータサイエンスの教養として教えてもいい科目かなと思う。 あともう一つ思うのはデータ構造で、古典的なデータ構造の授業で扱う内容というよりは、自分が解きたい問題に合わせてデータ構造を設計する知識を教えたほうがいいんじゃないかと思ったり。簡潔データ構造のようなガチのデータ構造の研究につながる
2. ⾃自⼰己紹介 l 海野 裕也 (@unnonouno) l unno/no/uno l 研究開発部⾨門 リサーチャー l 専⾨門 l ⾃自然⾔言語処理理 l テキストマイニング l 職歴 l 2008/4~2011/3 ⽇日本アイ・ビー・エム(株)東京 基礎研究所 l 2011/4~ 現職 2 3. 今⽇日の発表の⽬目的 l 形態素解析器の中で何が⾏行行われているか l コスト最⼩小化, HMM, MEMM, CRF etc. , l JUMAN, Chasen, MeCab, etc. l ・・・だけだとよくあるので、最新の⼿手法と過 去の⼿手法をまとめる l 現在の問題点に関してもまとめる 3
はじめに Rousseau et al., Graph-of-word and TW-IDF: New Approach to Ad Hoc IR http://www.lix.polytechnique.fr/~rousseau/papers/rousseau-cikm2013.pdf 文書dのグラフ的表現とそこから計算されるTW-IDFというTermの重み付けについて、メモ。 Graph of Word 文書を重みなし有向グラフで表現 頂点: 各(unique)term 辺: 固定幅(4ぐらい?)の窓内のtermとの共起 辺の向き: termの出現順序(前から後ろ方向のみ) 多重辺にはしない TW-IDF TW-IDF(t,d) = tw(t,d) / (1-b+b*|d|/avdl) * log( (N+1) / df(t) ) tw(t,d): 文書dのgraph of word表
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く