[B! textmining] webmarksjpのブックマーク

webmarksjp id:webmarksjp

textminingに関するwebmarksjpのブックマーク (4)

Perlで入門テキストマイニング » SlideShare (share powerpoint...
2. テキストマイニング（１）評判情報。ポジティブ、ネガティブ • プロフィール。ブロガーの性別、年齢、地域 • そのページに関連した広告とか。 • 関連語。 • もしかして○○？ • クラスタリング。グルーピング。 •
webmarksjp 2008/07/14
形態素解析

データマイニング

keygraph

algorithm

textmining

nlp

perl

programming

mining

テキストマイニング
リンク
Webページの本文抽出 (nakatani @ cybozu labs)
Webページの自動カテゴライズの続き。前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。【追記】大事なこと書き忘れ。本モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont
webmarksjp 2008/07/14
blog

cybozu

google

html

library

pathtraq

textmining

tips

本文抽出

ライブラリ
リンク
”専門用語（キーワード）自動抽出システム”のページ
1.専門用語（キーワード）自動抽出システムとは？当サイトでは、専門用語（キーワード）自動抽出システムの基本システムおよび応用システムを提供しています。専門用語（キーワード）自動抽出システムとは、単なる文章の単語分割ではありません。一般に文章中では複数の単語の組み合わせで複雑な概念を表す場合が多く、文章の内容が専門的な事項に特化すればその傾向はさらに顕著なものとなるでしょう。したがって文章中からキーワードを抽出する場合、単語分割機能だけでは意味を成しません。そこで、このシステムでは、（１）形態素解析プログラムによる単語分割、（２）複合語の作成、（３）文章中における重要度の計算、という３つのステップを踏むことで、複合語により複雑な概念を表すことが多い専門用語をキーワードとして文章中から抽出することに成功しました。自作の文章からキーワードを抽出したい！メタデータ作成のためにウェッブサイト
webmarksjp 2008/07/14
形態素解析

nlp

web

-

textmining

自然言語処理

日本語処理

テキストマイニング

webサービス
リンク
カイ二乗値で単語間の関連の強さを調べる
カイ二乗値で単語間の関連の強さを調べる 2007-09-19-1 [Algorithm][Programming] カイ２乗値を使って単語間の関連度を調べる方法。つまり、関連語を探すときに、χ二乗値を関連度として使う。 perl によるサンプルコード (chiword.pl)。昔、勉強がてら作ったコード。 #!/usr/bin/perl use strict; use warnings; my %cnt; my $pair_num; while (<>) { chomp; next if /^\s*$/; my @list = sort split(/,/, $_); for (my $i = 0; $i < @list; $i++) { for (my $j = $i + 1; $j < @list; $j++) { next if $list[$i] eq $list[$j]; $c
webmarksjp 2008/07/12
カイ二乗

自然言語処理

*研究

統計

nlp

機械学習

textmining

Algotithm

p. アルゴリズム
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx