[B! crf] gotinのブックマーク

gotin id:gotin

crfに関するgotinのブックマーク (3)

CRF を使った Web 本文抽出
CRF(Conditional Random Fields)を使って html から本文を抽出する実装プロトタイプの紹介です。 http://www.slideshare.net/shuyo/web-using-crf の改訂版です。Read less
gotin 2011/11/25
crf
リンク
Web本文抽出 using crf
10. ExtractContentのアルゴリズム概略 • html をブロックに分割 • ブロックごとにスコアを計算 – 句読点が多い – 非リンクテキストが長い – 本文っぽくないフレーズが含まれている • 連続するブロックを「大ブロック」にまとめる – スコアの高いものをつなげていく – スコアが低いとつながる確率は減衰していく • スコアが最大となる「大ブロック」が本文 • 「ヒューリスティック」と言えば聞こえがいいが – 思いつきのアイデア＋感覚による調整 11. ExtractContentのコード(抜粋) module ExtractContent # Default option parameters. @default = { :threshold => 100, :min_length => 80, :decay_factor => 0.73, :continuous_
gotin 2011/11/25
crf
リンク
WebDB Forum 2011 で「 CRF を使った Web 本文抽出」を発表してきました - 木曜不足
昨年に引き続き、今年も WebDB Forum 2011 のサイボウズの企業セッションでの発表の機会をいただきましたので、「 CRF を使った Web 本文抽出」について話をさせていただきました。 CRF を使った Web 本文抽出 for WebDB Forum 2011 View more presentations from Shuyo Nakatani この発表は、過去に2回(自然言語処理勉強会＠東京(TokyoNLP) 第1回、確率の科学研究会第1回)で話をさせてもらったことと、WebDB Forum という場であること、さらに発表時間が 20分*1ということを考えて、今回は非常にスリムな内容になっています。 CRF についてはズバッとはしょって、その代わりに系列ラベリングを本文抽出に使うというのはどういうことか、という図を入れましたので、さらっと読むには一番わかりやすいのでは
gotin 2011/11/07
crf

ie
リンク
1