タグ

NLPとDataMiningに関するttpoohのブックマーク (5)

  • 大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記

    id:naoya さんのLatent Semantic Indexing の記事に触発されて、ここ1週間ほどちょくちょく見ている行列の近似計算手法について書いてみる。ここでやりたいのは単語-文書行列(どの単語がどの文書に出てきたかの共起行列)や購入者-アイテム行列(どの人がどのを買ったかとか、推薦エンジンで使う行列)、ページ-リンク行列(どのページからどのページにリンクが出ているか、もしくはリンクをもらっているか。PageRank などページのランキングの計算に使う)、といったような行列を計算するとき、大規模行列だと計算量・記憶スペースともに膨大なので、事前にある程度計算しておけるのであれば、できるだけ小さくしておきたい(そして可能ならば精度も上げたい)、という手法である。 行列の圧縮には元の行列を A (m行n列)とすると A = USV^T というように3つに分解することが多いが、も

    大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記
    ttpooh
    ttpooh 2009/02/19
    SVDよりお得なCURの紹介。要チェック。
  • KH Coder: 計量テキスト分析・テキストマイニングのためのソフトウェア

    分析結果の再現や生成AI活用についてのチュートリアル公開中 医療用語の辞書をご用意(無料) 産学連携プロダクト「KH Coderオフィシャルパッケージ」発売中 KH Coderとは KH Coderとは、計量テキスト分析またはテキストマイニングのための自由ソフトウェアです。 アンケートの自由記述・インタビュー記録・新聞記事など、さまざまなテキストの分析にお使いいただけます。 プログラミング不要、マウス操作で格的な分析 安心の分析プロセス完全公開、研究利用も多数 New! 機能紹介(スクリーンショット) スクリーンショット集 [旧ページ:言葉・文書・可視化・他] KH Coder 3 正式版の新機能 New! 機能追加プラグイン「文錦®」シリーズ New! ダウンロードと使い方 KH Coder 3 正式版ダウンロード (Version 3.02) 使い方を知るためのチュートリアル ヘルプ

    ttpooh
    ttpooh 2007/07/05
    ChaSen + MySQL + Perl/関連単語マップなど。
  • 米エンロン社の電子メール150万通:その利用法(上) | WIRED VISION

    米エンロン社の電子メール150万通:その利用法(上) 2006年2月 1日 コメント: トラックバック (0) Ryan Singel 2006年02月01日 倒産した米エンロン社のジェフリー・スキリング元最高経営責任者(CEO)は、退陣するほんの数ヵ月前の2001年3月に、ある従業員から電子メールを受け取った。このメールには、警官がスピード違反をした車を路肩に停車させたところ、ドライバーのが飲酒運転を含むほかの違法行為も警官に告げ口した、というジョークが書いてあった。 エンロン社のスキリング元CEOとケン・レイ元会長は、もうすぐ自社のメールが――このドライバーののように――法廷と世論の両方において、自分たちに不利な証言をすることに皮肉を感じないだろうか。複数の詐欺罪で起訴されたスキリング元CEOとレイ元会長の裁判は、連邦裁判所で30日(米国時間)に始まる。 エンロン社の電子メールがイ

    ttpooh
    ttpooh 2006/02/25
    思わぬところから良質(?)のメールコーパスが。
  • http://kizasi.xsp.gr.jp/

    ttpooh
    ttpooh 2005/09/09
    オントロジーと連語処理にかなり力入ってるっぽい時系列系blog mining。
  • 野村総研、朝10分で膨大な顧客の声を把握できるテキストマイニングシステム

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 野村総合研究所(NRI、藤沼彰久社長)は、企業内に蓄積された膨大なテキストデータをそれぞれの業務やニーズに合わせて迅速に集約・情報発信ができるポータルシステム「TRUE TELLER 顧客の声ポータル」を発売した。 新製品は、140社への導入実績をもつテキストマイニング分析システム「TRUE TELLER」で培った技術や、顧客の声の共有画面のテンプレートを活用し、経営層から現場の社員までの活用レベルに合わせた情報発信を行うポータルサイトを短期間で構築できるもの。全社員が確実かつ迅速に顧客の声に触れることで企業全体に顧客視点の思考を形成できるようになり、顧客満足から利益を生み出す企業体制へと移行できる。 例えば、経営層・管理者層では、朝の

    野村総研、朝10分で膨大な顧客の声を把握できるテキストマイニングシステム
    ttpooh
    ttpooh 2005/07/30
    顧客だけじゃなく、社内blogとかに応用して社員の声の集約とかへの応用が考えられるかな。
  • 1