クラスタリング (clustering) とは,分類対象の集合を,内的結合 (internal cohesion) と外的分離 (external isolation) が達成されるような部分集合に分割すること [Everitt 93, 大橋 85] です.統計解析や多変量解析の分野ではクラスター分析 (cluster analysis) とも呼ばれ,基本的なデータ解析手法としてデータマイニングでも頻繁に利用されています. 分割後の各部分集合はクラスタと呼ばれます.分割の方法にも幾つかの種類があり,全ての分類対象がちょうど一つだけのクラスタの要素となる場合(ハードなもしくは,クリスプなクラスタといいます)や,逆に一つのクラスタが複数のクラスタに同時に部分的に所属する場合(ソフト,または,ファジィなクラスタといいます)があります.ここでは前者のハードな場合のクラスタリングについて述べます.
プライバシ保護データマイニング (PPDM) 東京大学 中川裕志 2002年くらいから伸びてきた分野です。最近は機械学習、 データ工学系の学会で相当数の論文が発表されています。 こういうご時勢ですから、ひょっとすると重要な技術要素 になるかもしれません。 個人情報保護が叫ばれる 複数の企業、組織が協力しないと日本は どんどん遅れていく PPDMの基礎概念 2種類のPPDM 摂動法 データベースに雑音を加え、利用者がデータベースに質 問しても真のデータベースの内容が利用者には取得でき ないようにする プライベートな情報は漏れないようにしたいが、一方で できるだけ正確なデータマイニング結果も得たい! 暗号法 データ保持者をパーティと呼ぶ。複数のパーティが自分 のデータは公開鍵暗号で暗号化する。当然、他のパー ティには自分のデータは知られない。暗号化したまま何 らかの計算を
プライバシ保護データマイニング Privacy-preserving Data Mining 筑波大学大学院 システム情報工学研究科 佐久間 淳 http://www.slab.cs.tsukuba.ac.jp/members/jun/index.html 1.はじめに 個人の行動や経済活動に密接に関連した実社会情報を扱うオンラインサービスの利用が盛んになりつつあります. 近年ではスマートフォンの普及による個人の精細な地理情報や行動履歴を利用した広告モデルやSNSなどが登場しています.今後は医療/遺伝子情報や金融/資産情報など,よりセンシティビティの高いデータの活用へと議論が向うと予想されています. 個人の望まない,あるいは意図しない個人情報の流通は社会に与える影響が大きく,その取扱いは慎重を要しますが,個人にかかわる情報はサービスの個人化にはなくてはならない情報であり,プライバシ保護
総合研究大学院大学 複合科学研究科 情報学専攻 卒 博士(情報学) 自然言語処理や機械学習、データ分析に関する研究内容とwebシステムの開発と運用について書いています。 シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。 ご興味ある方はご連絡ください。 別に(ソーシャル)ゲームに限らず、ユーザのそういった行動ログはweb閲覧履歴など...の形態で蓄積されていたはずで,それに比べてデータ量が大きく増えたわけではないのに、何で今更ビッグデータがどうのこうのと言われているんでしょうか? ソーシャルゲームの会社は口を揃えてユーザの行動ログを分析...マイニングして売り上げ増やしたいと思ってますが、しかしデータマイニングについては基本的に心構えというか、ある種の"覚悟"のようなものが要りますよ。 「ビッグデータがあるので、これを分析して何か面白いことがわからないか」 とか言う
2. 22 はじめに: About Us 小林隆志 (発表者) 名古屋大学 大学院情報科学研究科 阿草・結縁研 所属 再利用,プログラム理解などの開発支援に興味あり データ工学の研究にも従事(2002年より) - マルチメディア情報検索,データマイニング応用など 林晋平 東京工業大学 大学院情報理工学研究科 佐伯研 所属 ソフトウェア変更の分析・適用支援に興味あり 開発履歴を用いたリファクタリング支援の研究で学位取得(2008) 4. 4 はじめに:お知らせ 後半は以下の解説論文のダイジェスト版です 小林隆志, 林晋平: データマイニング技術を応用した ソフトウェア構築・保守支援の研究動向, コンピュータソフトウェア Vol.27, No.3 (2010), pp.13-23 Aug 2010. http://www.jstage.jst.go.jp/article/jssst/27/3/
Introduction SPMF is an open-source software and data mining library written in Java, specialized in pattern mining (the discovery of patterns in data) . It is distributed under the GPL v3 license. It offers implementations of 262 data mining algorithms for: association rule mining, itemset mining, sequential pattern sequential rule mining, sequence prediction, periodic pattern mining, episode min
1. Hadoop and the Data Scien/st 第2回NHNテクノロジーカンファレンス (2012/08/18) Takahiro Inoue (@doryokujin) Treasure Data, Inc. Chief Data Scien/st 2. Introduc/on • Takahiro Inoue (TwiFer: @doryokujin ) • Majored in Mathema/cs • Chief Data Scien/st @ Treasure-‐Data • Leader of Japanese MongoDB Community, Mongo Masters 4. Challenges with building your own cloud based data warehouse Treasure Data High-Level
はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、
2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C
久々の更新です。前々から注目していた『Data Mining and Statistics for Decision Making』が届きました。ちょっと読んだだけでも、ここ数年で一番の応用本だと感じました。単なる応用本ではなく、解析やデータマイニングがビジネスに利用されることを非常に強く意識されている内容です。 Data Mining and Statistics for Decision Making (Wiley Series in Computational Statistics) 作者: Stéphane Tufféry出版社/メーカー: Wiley発売日: 2011/04/18メディア: ハードカバー購入: 15人 クリック: 478回この商品を含むブログ (2件) を見る 見出しを読むだけでも素晴らしいのが分かります。おしゃれStatistics勉強会で使っている『Stati
KNIME Analytics Platform 5.4 is now out!Read about faster workflow building with K-AI, easier node search, expanded LLM support, enhanced GenAI governance, and simplified access to tools like Tableau. Visual workflows for complex data & AI work.KNIME workflows allow anyone, whether they’re a business analyst or an experienced data scientist, to harness the latest and greatest data technology throu
グループウェアのログデータを分析対象とした、 PL/Rを用いたデータマイニングWebアプリの実現(1) アブストラクト: 新入社員が受ける一ヶ月の開発研修で、PostgreSQLとR言語を統合し、PL/Rを用いてデータマイニングのWebアプリを実装しました。また、サイボウズ社内で使用している「サイボウズガルーン2」のWebサーバーのログデータを分析してみました。ここで、これらの技術について、紹介したいと思います。 キーワード: グループウェア、ログデータ、Webアプリケーション、データマイニング、可視化 初めまして、周と申します。2009年2月に「ポスドク採用枠」(ポスドク枠)で入社し、現在は開発部に所属しています。今回、開発部業務研修で実装したデータマイニングWebアプリやログデータ分析についての技術を紹介したいと思います。 サイボウズでは、ポスドク枠で採用される新入社員は、約1ヶ月の人
データマイニングによる異常検知 (ISBN978-4-320-01882-2) 山西健司 著 A5,192頁,3800円 ●内容 大量のデータから知識の宝を掘り出す「データマイニング」という技術が注目されている。その中でも「異常検知」という問題は,セキュリティ,障害検出,情報漏洩対策,マーケティングなど幅広い応用可能性を秘めている。本書はデータマイニングによる異常検知に特化して書かれた日本で初めての書である。 著者は,実際に企業の研究開発の現場でデータマイニングの基礎研究から事業化へと携わってきた。本書では,その豊富な経験を基に,深い数理工学的基礎に基づきながらも現実に通用するデータマイニングの実際を説き明かす。 本書の特徴の1つは,「情報論的学習理論」と呼ばれる機械学習の先端理論をベースに,異常検知問題に統一的にアプローチしていることである。これによって,異常検出の一貫した
第22回 大きなデータを眺める 2008年5月16日 IT コメント: トラックバック (0) (これまでの増井俊之の「界面潮流」はこちら) 下図はMacintoshの Disk Inventory X というソフトで私のホームディレクトリの中のファイルの大きさを視覚化したものです。 大きなファイルが大きな矩形で表現され、ファイルをまとめたフォルダも矩形として階層的に表現されています。 一方、下図はWindowsの SequoiaView というソフトを使ってファイルの大きさを視覚化した例です。 後発のDisk Inventory Xは、おそらく SequoiaView に触発されたと思われるので外見がよく似ていますが、階層的に配置した矩形の集合でファイルサイズを表現するという方法は、University of Maryland の Human-Computer Interaction
Posted by Alex Franz and Thorsten Brants, Google Machine Translation Team Here at Google Research we have been using word n-gram models for a variety of R&D projects, such as statistical machine translation, speech recognition, spelling correction, entity detection, information extraction, and others. While such models have usually been estimated from training corpora containing at most a few bill
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く