タグ

DataMiningに関するttpoohのブックマーク (20)

  • 大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記

    id:naoya さんのLatent Semantic Indexing の記事に触発されて、ここ1週間ほどちょくちょく見ている行列の近似計算手法について書いてみる。ここでやりたいのは単語-文書行列(どの単語がどの文書に出てきたかの共起行列)や購入者-アイテム行列(どの人がどのを買ったかとか、推薦エンジンで使う行列)、ページ-リンク行列(どのページからどのページにリンクが出ているか、もしくはリンクをもらっているか。PageRank などページのランキングの計算に使う)、といったような行列を計算するとき、大規模行列だと計算量・記憶スペースともに膨大なので、事前にある程度計算しておけるのであれば、できるだけ小さくしておきたい(そして可能ならば精度も上げたい)、という手法である。 行列の圧縮には元の行列を A (m行n列)とすると A = USV^T というように3つに分解することが多いが、も

    大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記
    ttpooh
    ttpooh 2009/02/19
    SVDよりお得なCURの紹介。要チェック。
  • イオンやダイエーを蹴散らす地場スーパー:NBonline(日経ビジネス オンライン)

    イオンやダイエーを蹴散らす地場スーパー:NBonline(日経ビジネス オンライン)
    ttpooh
    ttpooh 2008/09/17
    データマイニングとパーソナライズで成長。徹底してやってるところって少ないのかな。
  • 関連するタグのデータをAPIで提供する『tagatum』 | 100SHIKI.COM

    これは興味深いプロジェクト。 tagatumでは、ブロガーが記事につけたタグを解析し、どのタグとどのタグがペアで使われているかを分析、そのデータをAPIで提供している。 これを使えば関連記事の検索がしやすくなったり、検索後の提案ができたりするかもしれない。 サイトには使用例があげられているが、基的には「APIは作ったのであとはあなたに任せた!」という姿勢も潔くて好感が持てる。 あなただったらどんなネットサービスを作ってみたいですかね。

    ttpooh
    ttpooh 2008/09/06
    タグの共起情報提供API。これは使えるかも。
  • データから「構造」を発見する:より人間に近づく人工知能 | WIRED VISION

    データから「構造」を発見する:より人間に近づく人工知能 2008年7月31日 サイエンス・テクノロジー コメント: トラックバック (1) Brandon Keim 生物学者のエルンスト・ヘッケルが作成した系統樹(現在は不正確だとされている)。 Image: WikiMedia Commons コンピューターがより人間らしく考えるのに役立つかもしれない、ある新しいパターン認識モデルが登場した。 7月28日(米国時間)刊行の『米国科学アカデミー紀要』(PNAS)に掲載されたこのモデルは、生のデータセットから出現する見込みが最も高いパターンの種類を判断する。 こうした処理は、人間が周囲の世界を理解する際に無意識のうちに使っているものだが、人工的な認識ツールでは一般に難しいとされてきた。 顔認識や系統学などに使われている現行の諸モデルでは、予想されるパターンの型があらかじめ特定されている必要があ

    ttpooh
    ttpooh 2008/08/01
    面白い。ノード間関係のprimitiveとその基本的な適用ルールから、特徴量空間中のデータのグラフ(ツリーがあるから微妙に違うけど)構造を学習。構造タイプ→実際の構造(関係?)→データという生成モデル。
  • KH Coder: 計量テキスト分析・テキストマイニングのためのソフトウェア

    研究ノート「計量テキスト分析ツールKH Coderによる分析結果の再現性」公開 医療用語の辞書をご用意(無料) 産学連携プロダクト「KH Coderオフィシャルパッケージ」発売中 KH Coderとは KH Coderとは、計量テキスト分析またはテキストマイニングのための自由ソフトウェアです。 アンケートの自由記述・インタビュー記録・新聞記事など、さまざまなテキストの分析にお使いいただけます。 プログラミング不要、マウス操作で格的な分析 安心の分析プロセス完全公開、研究利用も多数 New! 機能紹介(スクリーンショット) スクリーンショット集 [旧ページ:言葉・文書・可視化・他] KH Coder 3 正式版の新機能 New! 機能追加プラグイン「文錦®」シリーズ New! ダウンロードと使い方 KH Coder 3 正式版ダウンロード (Version 3.02) 使い方を知るためのチ

    ttpooh
    ttpooh 2007/07/05
    ChaSen + MySQL + Perl/関連単語マップなど。
  • 広告β:口コミサイトの広告モデル脱却

    口コミはカネにならない。そういう意見が結構ある。 価格.comとか、@cosmeなどの商品系口コミ系サイトは、人気こそあるものの 収益が今ひとつ伸び悩んでいる。理由は、広告出稿が伸びないからだ。 メーカーにしてみれば、口コミサイトにおける口コミというのは、 よいものもあれば悪いものもあるので、自然と広告出稿をためらってしまう。 広告出稿をしたところで、自社に都合のいい口コミが増えるわけでもない。 コントロールの効かない広告出稿は嫌われる傾向にある。 ただやはり、口コミサイトは非常に人気があり、多くの消費者が商品選定の 参考にしている。アンケートをとると、購買参考情報としての口コミサイトは かなり高い数値をたたき出す。有用なサービスではあるといえる。 人気があるのに儲からない口コミサイトは、この2つの事実に悩む。 ここで口コミサイトがたどる道はいくつかある。 ひとつは

    ttpooh
    ttpooh 2007/02/17
    @cosmeのリアル店舗展開。/『口コミサイトが繁盛するのは店員影響力の強いジャンル』<なるほど。/口コミデータマイニングは今後大きくなりそう。
  • http://www.neurosci.aist.go.jp/ibisforest/index.php?FrontPage

    ttpooh
    ttpooh 2006/07/18
    機械学習系Wiki。赤穂さん@産総研らによる管理。
  • YALE - Yet Another Learning Environment

    YALE was renamed to RapidMiner and the web site has been moved to http://www.rapidminer.com/ Please update your bookmarks. If you aren't be redirected within a few seconds please follow the link stated above.

    ttpooh
    ttpooh 2006/06/30
    Javaの機械学習ライブラリ・・・かな?
  • みんなのブログで作る新感覚音楽情報サイト - musicmarQ

    ダイエットサプリ・ランキング1位獲得※ ”ラクビ”のキャンペーンは、今だけ!! サイト限定!1ヵ月分がたったの500円!(最安値) これ1粒で、腸内フローラが改善されて、”痩せるカラダ”になれる! さらに、便秘解消・美肌など、あなたの悩みをすべて解決! カラダの内側から変わるので、「面倒なダイエット」ともおさらば! 安心の無添加成分で、副作用なし! あたなも、”スリムな自分”を手に入れませんか? あなたの悩み、ラクビ(LAKUBI)で解決♪ 特別価格500円 ※お得なキャンペーンは今だけ!! 終わる前にチェックを!ラクビ キャンペーン購入ページ ラクビの定期購入を解約する方法 解約の手段は電話での連絡のみゆうゆうコースの解約は電話のみでの対応になります。 下記に載っている電話番号にかけて解約したい旨を伝えましょう。 また、営業時間は平日9:00〜19:00、土曜:9:00~17:00(

    みんなのブログで作る新感覚音楽情報サイト - musicmarQ
    ttpooh
    ttpooh 2006/04/16
    kizasiの音楽版。06/04/16時点でJ-Pop中心に18kアーティスト。辞書をどうしたかが気になる。
  • 米エンロン社の電子メール150万通:その利用法(上) | WIRED VISION

    米エンロン社の電子メール150万通:その利用法(上) 2006年2月 1日 コメント: トラックバック (0) Ryan Singel 2006年02月01日 倒産した米エンロン社のジェフリー・スキリング元最高経営責任者(CEO)は、退陣するほんの数ヵ月前の2001年3月に、ある従業員から電子メールを受け取った。このメールには、警官がスピード違反をした車を路肩に停車させたところ、ドライバーのが飲酒運転を含むほかの違法行為も警官に告げ口した、というジョークが書いてあった。 エンロン社のスキリング元CEOとケン・レイ元会長は、もうすぐ自社のメールが――このドライバーののように――法廷と世論の両方において、自分たちに不利な証言をすることに皮肉を感じないだろうか。複数の詐欺罪で起訴されたスキリング元CEOとレイ元会長の裁判は、連邦裁判所で30日(米国時間)に始まる。 エンロン社の電子メールがイ

    ttpooh
    ttpooh 2006/02/25
    思わぬところから良質(?)のメールコーパスが。
  • 口コミを統計グラフ化--kizasiから生まれた「ブログクチコミサーチ」

    ブログ上で話題になっているキーワードのランキングを紹介する「kizasi.jp」を運営するシーエーシー(CAC)は、 あるキーワードがブログ上でどのように話題になっているかを時系列にグラフ化して表示するサービス「ブログクチコミサーチ」のベータ版を1月30日より公開する。自社の商品の反響が知りたいマーケティング担当者などをターゲットとする。 ブログクチコミサーチは、kizasi.jpのブログ検索エンジンを利用する。ユーザーが選んだ任意のキーワードについて、ブログ上でどの程度話題になっているかという出現量と、どんな言葉と一緒に語られているかという関連語のランキングを時系列に表示する。たとえば下の画面の場合、「カレー」よりも「ラーメン」のほうがブログで語られることが多く、なかでも「麺」や「スープ」についての記述が多いことが分かる。 ブログクチコミサーチはkizasi.jpと同様に1日10〜15万

    口コミを統計グラフ化--kizasiから生まれた「ブログクチコミサーチ」
    ttpooh
    ttpooh 2006/02/03
    品詞別に共起語が見れるのはいいかも。ユーザ登録してみようかな。
  • Yahoo!スポーツ

    ttpooh
    ttpooh 2005/10/20
    こういうデータマイニングだと夢があっていいなぁ。「マネーボール」も読んでおきたい。
  • SPSエンタープライズ株式会社

    お客様に最大の顧客満足を感じて頂けるよう、最高品質のサービスをご提供致します。常にお客様のニーズに合わせたご提案ができる体制を整えております。他社が実現できないようなお仕事でも、是非一度ご相談下さい。 業務の効率化および無駄な中間マージンを排除することにより、常に業界最安値を実現する仕組みを構築しております。高い品質と安さで、費用対効果の高いサービスをご提供することをお約束いたします。

    ttpooh
    ttpooh 2005/09/19
    事例や心構えとか。
  • http://kizasi.xsp.gr.jp/

    ttpooh
    ttpooh 2005/09/09
    オントロジーと連語処理にかなり力入ってるっぽい時系列系blog mining。
  • 個人の生活パターンから組織全体の動きを把握する研究(上) | WIRED VISION

    個人の生活パターンから組織全体の動きを把握する研究(上) 2005年8月 2日 コメント: トラックバック (0) Ryan Singel 2005年08月02日 携帯電話は、持ち主が誰に電話をかけて、誰からの電話に出なかったかを知っている。しかしそれだけでなく、所有者が出かけた先や睡眠時間を記録したり、所有者が次にすることを予測したりもできるとしたら……。 少なくとも、マサチューセッツ工科大学(MIT)の学生や職員に配られた100台のカスタマイズされた携帯電話は、このような機能を持っている。そして、普通の携帯電話にも近い将来、同じ機能が備わるかもしれない。 この100台の携帯電話は、MITメディアラボの研究者ネイサン・イーグル氏が博士課程の研究で開発したものだ。イーグル氏はMITの生徒や職員の生活を記録する手段として、1年生から経営学修士(MBA)課程の学生、メディアラボの職員から教授ま

    ttpooh
    ttpooh 2005/08/03
    そこまでしたいかなぁ。なんとなくデータマイニングに"怖いもの"という印象が植え付けられそうな予感。
  • 野村総研、朝10分で膨大な顧客の声を把握できるテキストマイニングシステム

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 野村総合研究所(NRI、藤沼彰久社長)は、企業内に蓄積された膨大なテキストデータをそれぞれの業務やニーズに合わせて迅速に集約・情報発信ができるポータルシステム「TRUE TELLER 顧客の声ポータル」を発売した。 新製品は、140社への導入実績をもつテキストマイニング分析システム「TRUE TELLER」で培った技術や、顧客の声の共有画面のテンプレートを活用し、経営層から現場の社員までの活用レベルに合わせた情報発信を行うポータルサイトを短期間で構築できるもの。全社員が確実かつ迅速に顧客の声に触れることで企業全体に顧客視点の思考を形成できるようになり、顧客満足から利益を生み出す企業体制へと移行できる。 例えば、経営層・管理者層では、朝の

    野村総研、朝10分で膨大な顧客の声を把握できるテキストマイニングシステム
    ttpooh
    ttpooh 2005/07/30
    顧客だけじゃなく、社内blogとかに応用して社員の声の集約とかへの応用が考えられるかな。
  • ツリーでもタグでもなく - 妄想科學倶樂部

    ブログやSBMのカテゴリ分けというのは他人のためにしか機能してないので、自分のためにカテゴリ(以前の何か)が作れるようなマーク手段が欲しい - 焚書官の日常他各所を読んで思うところを。 カテゴリ毎にフォルダを作って分類するようなツリー構造の問題点は「これはカテゴリAにもBにも属する」というものをどうするか、というところだと思う。すべてのデータは常にいずれか1箇所にのみ分類され、曖昧なものを許容する冗長性がない。 それを補うのがタグのようにメタデータを付与するやり方で、これならばAにもBにも属する場合でもAとB両方のタグを付けるだけで良く、分類/検索が容易である。ただしタグを自由に決定できるシステムではツリー構造より曖昧性が大きいため、共通性を見出すのが困難になる。個人の分類に於いてはそれほど大きな問題にはならないだろうが、多人数で扱うには向かない。 これに対しはてなブックマークではキーワー

    ツリーでもタグでもなく - 妄想科學倶樂部
    ttpooh
    ttpooh 2005/06/07
    SBMのタグこそマイニングしようよ!と思う・・・が。
  • Interscope セグメンテーション

    ttpooh
    ttpooh 2005/05/27
    商品の効用の上位概念・下位概念を効率的に探索
  • Polyphonichmi

    ttpooh
    ttpooh 2005/05/26
    音楽解析、ヒット曲予測など。
  • ついに明かされるGoogle Newsの秘密 - CNET Japan

    Google社で主任科学者を務めるのが、Krishna Bharat氏だ。Google誕生前のインターネット検索黎明期に「AltaVista」というサービスの開発チームで、PageRankに似たウェブページの格付けに関する研究をしていたこともある人物だ。そのBharat氏が、最近もっとも関心があるのがインターネットとジャーナリズムの融合。ここ数年で最大の功績は人気サービスとなっている「Google News」の開発である。「ウェブの進化にあわせて、人々とニュース情報の接し方も変わり始めた」と語る同氏に、その真相やGoogle Newsの舞台裏を聞いた。 Principal Scientist Google Inc. Krishna Bharat (クリシュナ・バラト) Google主任科学者で、ウェブ検索とコンテンツ分析のユーザーインターフェースとアルゴリズムの開発などを手がけている。1

    ついに明かされるGoogle Newsの秘密 - CNET Japan
    ttpooh
    ttpooh 2005/05/25
    クラスタリング、重要度付け、パーソナライズ。
  • 1