[B! 自然言語処理] fukudamasa09のブックマーク

fukudamasa09 id:fukudamasa09

自然言語処理に関するfukudamasa09のブックマーク (19)

Kaggle: The Home of Data Science
Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.
fukudamasa09 2015/09/08
競技プログラミング

analytics

機械学習

machine_learning

machinelearning

自然言語処理

competition

data

統計
リンク
Statistical Semantic入門 ~分布仮説からword2vecまで~
1. The document discusses various statistical and neural network-based models for representing words and modeling semantics, including LSI, PLSI, LDA, word2vec, and neural network language models. 2. These models represent words based on their distributional properties and contexts using techniques like matrix factorization, probabilistic modeling, and neural networks to learn vector representatio
fukudamasa09 2014/03/10
machinelearning

Access

自然言語処理

NLP

PFI

research

統計

Machine Learning

statistics

word2vec
リンク
自然言語処理をなにも知らない私がword2vecを走らせるまで - 最尤日記
googleの中の人たちが作ったword2vecというモノがあります。deep learningを自然言語(N-gram?)に適用することにより単語を100次元くらいのベクトル空間にマップする物だと思います。面白さは以下のベージの通りですが、たったこれだけの事で、ほとんど意味理解の一歩手前まで到達していると思います。 Taku Kudo : word2vec で少し遊んでみた。いわゆる deep… 面白いのは、2つのベクトルの差が、2つの単語の関係をよく近似してくれること。（中略） A B C → X (A → Bの関係に対し、 C → X に当てはまるXを探す) グーグルヤフートヨタ → 日産渋谷新宿札幌 → 旭川警察泥棒正義 → くそ平和戦争左 → 右社員会社生徒 → 小学校空海天井 → 床板生きる死ぬ動く → 止まる・・・ Deep-le
fukudamasa09 2014/03/10
機械学習

programming

自然言語処理

word2vec

nlp

テキストマイニング

deep learning

TextMining

data

データ分析
リンク
日本テレビ東京で学ぶMeCabのコスト計算 | mwSoft
今回はこの言葉の解析をMeCab＋NAIST辞書にお願いして、結果を分析することで、MeCabが行っているコスト計算について勉強してみたいと思います。とりあえず実行してみるさっそくMeCabに「日本テレビ東京」を解析してもらいましょう。 $ echo 日本テレビ東京 | mecab 日本名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン,, テレビ東京名詞,固有名詞,組織,*,*,*,テレビ東京,テレビトウキョウ,テレビトーキョー,, EOS 「日本 | テレビ東京」と分けていますね。視聴率的には負けていますが、NAIST辞書的には日本テレビよりもテレビ東京が優先されたようです。ちなみに「フジテレビ東京」ではどうなるでしょうか。 $ echo フジテレビ東京 | mecab フジテレビ名詞,固有名詞,組織,*,*,*,フジテレビ,フジテレビ,フジテレビ,, 東京名詞,
fukudamasa09 2013/07/24
algorithm

ソフトウェア

プログラミング

Mecab

形態素解析

language

nlp

全文検索

あとで読む

自然言語処理
リンク
MeCabとマルコフ連鎖で文章生成をやってみた - Stellaqua - ＴＯＭの技術日記
何となく"マルコフ連鎖"という単語に魅かれて、ちょっとやってみました。 →mecab でマルコフ連鎖をためしてみる。 - コードを舐める日々まずスクレイピングまぁ、当然(?)、PHPでやる訳ですが、まずスクレイピングをどうしようかなと思ったんですが、HTML Scrapingという素晴らしいPHPクラスがあるので、ありがたく使わせて頂く事にしました。 →http://www.rcdtokyo.com/ucb/contents/i000851.php <?php try { $hs = new HTML Scraping(); $url = 'http://www.asahi.com'; $xml = $hs->getXmlObject($url); $li = $xml->xpath('//div[@id="HeadLine"]/ul[@class="Lnk FstMod"]/li[1]/
fukudamasa09 2013/06/04
construction

BABY

array

マルコフ連鎖

class

DOM

php

ai

自然言語処理

人工無能
リンク
形態素解析エンジン言語郎 - とは？
自然言語で書かれた文を、形態素（言語で意味を持つ最小単位）に分割する技術です。この際、辞書 (「品詞」などの情報つきの単語リスト)中の情報を参照することで、「品詞」、「活用形」、「読み」等の情報を得ることが可能です。
fukudamasa09 2013/05/29
形態素解析

ソフトウェア

nlp

日本語

自然言語処理

テキストマイニング

morphological analysis

Prog

tool

言語
リンク
テキストマイニングの基礎
〜準備編〜まずRをインストールしておくこと（不慣れな人は丁寧に解説したRインストールのページを参照のこと）。 Rでテキストマイニングをするために石田基広氏のウェブサイトよりRMeCab_0.90.zipというファイルをダウンロードする。ファイル名は変更されるかもしれないし、0.90というバージョンも変わるかもしれないので最新のものをダウンロードすること。なおダウンロードされた.zipファイル（圧縮されたファイル）は解凍する必要がなく、.zipファイルをそのまま適当なディレクトリ（フォルダ）に置いておけばよい。 Rのワークディレクトリ（getwd()とコマンドすれば確認できる）に、例えばzip_packagesという名前のフォルダを作成しておき、その中に保存しておくと分かりやすいだろう。〜R上での準備〜 R上でRMeCabを利用するためには [パッケージ] -> [ローカルにあるzipフ
fukudamasa09 2012/08/20
library

自然言語処理

インストール

R

RMeCab
リンク
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2012-01-27 MeCab 0.993 MeCab::Tagger::formatNode()が正しく動いていなかった問題の修正スタックの消費を抑えるため、ほとんどのローカル変数(配列)をヒープ上に退避 2012-01-14 MeCab 0.992 ソースコード中のTypoの修正 2012-01-14 MeCab 0.991 空文字列もしくは空白文字列を解析した時に解析エラーとなる問題を修正ユーザ辞書の作成に失敗する場合がある問題を修正 2011-12-24 MeCab 0.99 MeCab::Model, MeCab::Lattice クラスを追加マルチスレッド環境でのユーザビリティの向上。複数スレッドが同一
fukudamasa09 2012/08/20
Learning

MeCab

形態素解析

自然言語処理

OSS

Linux

software

TDAP
リンク
全文検索 - Wikipedia
順次走査検索、逐次検索ともいう。「grep」とはUNIXにおける文字列検索コマンドであり、複数のテキストファイルの内容を順次走査していくことで、検索対象となる文字列を探し出す。一般に「grep型」と呼ばれる検索手法は、事前に索引ファイル（インデックス）を作成せず、ファイルを順次走査していくために、検索対象の増加に伴って検索速度が低下するのが特徴である。ちなみに「grep型」とは実際にgrepコマンドを使っているという意味ではない。インデックス作成型全文検索システム検索対象となる文書数が膨大な場合、grep型では検索を行うたびに1つ1つの文書にアクセスし、該当データを逐次検索するので、検索対象文書の増加に比例して、検索にかかる時間も長くなっていってしまう。そこであらかじめ検索対象となる文書群を走査しておき、高速な検索が可能になるような索引データを準備することで、検索時のパフォーマンスを向
fukudamasa09 2012/08/20
Excel

プログラミング

google

自然言語処理

search

全文検索

html

wikipedia

検索

アルゴリズム
リンク
Muliaslot88 | 8 Cara Menang Besar dengan Situs Judi Slot Terbaik dan Terpercaya no 1 di Indonesia
Kami tahu bahwa slot online menarik, menyenangkan, dan dapat meningkatkan peluang Anda untuk memenangkan banyak uang. Tetapi dengan begitu banyak pilihan di luar sana, bagaimana Anda tahu mana yang harus dipilih? Jika Anda ingin mencapai kesuksesan di industri judi slot, Situs Judi Slot Terbaik dan Terpercaya Nomor 1 di Indonesia adalah pilihan terbaik Anda. Situs ini telah memperoleh reputasi yan
fukudamasa09 2012/01/19
rmecab

r

ネットワーク分析

パッケージ

statistics

テキストマイニング

自然言語処理

textmining

インストール
リンク
入門自然言語処理を禁書にすべき10の理由 | TRIVIAL TECHNOLOGIES on CLOUD
みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。免責事項プライバシーポリシー「入門自然言語処理」はヤバい書籍なので禁書にすべきだ。タイトルは釣りじゃない。その理由を10個挙げる。自然言語処理のかなり基本的なことからそこそこ高度なことについて解説されてあり，自然言語処理について理解が深まり過ぎるボリュームがあるのに書き方が平易でついつい読みふけってしまう演習問題があり，自分の理解度を確かめられたりするのもケシカラン原著は欧米語のための言語処理について書かれた書籍なのに，日本語の形態素解析などについても解説してあって我慢できない必要ライブラリのインストールなど環境構築に時間が取られそうでヤバい書籍の応用でBotとか人工無能とか作ったらどうかな−，と
fukudamasa09 2011/12/21
Python

python

10の理由

book

自然言語処理

Cloud

アクセス

コーディング

インストール

programming
リンク
第3回さくさくテキストマイニング勉強会に参加しました #sakuTextMining - nokunoの日記
というわけで参加してきました。会場は数理システムさんです。第3回さくさくテキストマイニング勉強会 : ATND 入門セッション（AntiBayesian）第三回さくさくテキストマイニング勉強会　入門セッション View more presentations from AntiBayesian 単語重要度入門〜テキストをダイエットさせよう〜（ toilet_lunch ） TF*IDFの話えっ私のテキストマイニング力低すぎ！？例：大量のアンケートの自由回答文から重要な単語を抜き出す例：エビオス嬢についての文章 TF*IDFとは TF（単語の頻度） * IDF（単語が含まれる文書割合の逆数（の対数））直感的ば解釈：ある文書でよく使われていて、他の文書ではあまり使われていない単語は、その文書をよく表しているなんで対数取るんだっけ・・・ IDFの影響が大きすぎるので小さくしたい→対数
fukudamasa09 2011/12/20
テキストマイニング

datamining

テキスト・マイニング

コーパス

データ

まとめ

自然言語処理

セッション

programming

NLP
リンク
ChaSen's Wiki
メニュー茶筌の配布 Anonymous CVS による配布ソースからのインストール辞書の作り方 FAQ 新着情報茶筌バージョンアップ履歴 MailingList 関係者一覧 LINK 最新の20件 2007-03-23 FrontPage 2006-09-20 ソースからのインストール 2005-10-24 Anonymous CVS による配布 2005-08-20 LINK 2005-07-22 質問箱 SideMenu 2005-03-09 WinChaのインストール 2004-11-10 茶筌の配布 2004-11-09 新着情報茶筌サーバ 2004-03-26 MailingList 2004-01-26 制約つき解析 2003-12-26 辞書定義ファイルのフォーマット 2003-12-25 辞書の作り方 2003-11-27 バグ情報 2003-10-24 FAQ:
fukudamasa09 2011/12/20
chasen

自然言語処理

Ruby

日本語解析

ツール

tool

search

analysis

japanese

形態素解析
リンク
形態素解析の茶筅
ChaSen -- 形態素解析器はじめに形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。新着情報 2011-11-16 (wed) See JPCERT Report. 茶筌の配布ダウンロードあらかじめ iconvと Darts-0.31のインストールが必要です。 chasen-2.3.3 辞書は別配布になっています。 ipadic-2.7.0 日本語辞書 UniDic 日本語辞書 NAIST-Japanese-dic 日本語辞書（奈良先端大より公開予定） NAIST-Chinese-dic 中国語語辞書（奈良先端大より公開予定）著作権および仕様条件について茶筌システムは，広く自然言語処理研究に資するため無償のソフトウェアとして開発されたものである．茶筌の著作権は，奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座(松本研究室)が保持する．本ソフ
fukudamasa09 2011/12/20
ソフトウェア

自然言語処理

言語処理

システム

ツール

tool

software

analysis

形態素解析

chasen
リンク
Amazon.co.jp: 人文・社会科学のためのテキストマイニング: 松村真宏, 三浦麻子: 本
fukudamasa09 2011/12/20
テキストマイニング

textmining

Book

データマイニング

自然言語処理

ソフトウェア

統計解析

amazon

technology
リンク
TTM: TinyTextMiner β version
はじめに TTMはテキストマイニングの前処理のためのフリーウェアです。CSV形式の「タグ付きテキスト」を読み込んで6種類の集計データを作成します。日本語と英語に対応しています。Windows版とMac OSX版があります。最新版はバージョン v0.86 (for Win, Win10まで対応)、v0.89 (for Mac, macOS Mojaveまで対応) です。また、Microsoft Excel上で動くExcelTTMもリリースしました。Excelに慣れ親しんだ方にはこちらの方が使い勝手がよいかもしれません。出力結果は同じですので、お好きな方をお使いください。インストール for Win 以下の3つのソフトウェアをインストールします。構文解析を行わないときはCaboChaのインストールは不要です。英文テキストを解析する場合はMeCabとCaboChaのインストールは不要です。
fukudamasa09 2011/12/20
自然言語処理

インストール

フリーソフト

テキストマイニング

ダウンロード

textmining

test

CSV

ツール

software
リンク
Python による日本語自然言語処理
はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
fukudamasa09 2011/11/25
Python

nlp

日本語

あとで読む

資料

自然言語

プログラミング

programming

japanese

自然言語処理
リンク
MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった一部のコンパイラで正しくコンパイルできなかった問題の修正部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-
fukudamasa09 2011/10/27
バグ

api

プログラミング

programming

ライブラリ

日本語

tool

自然言語処理

形態素解析
リンク
いまさら聞けないHadoopとテキストマイニング入門
ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1
fukudamasa09 2011/06/22
テキストマイニング

データ

プログラマ

あとで読む

オープンソース

hadoop

mapreduce

自然言語処理

Programming

重
リンク
1