タグ

Clusteringに関するagwのブックマーク (5)

  • クラスタリング (クラスター分析) - Toshihiro Kamishima

    クラスタリング (clustering) とは,分類対象の集合を,内的結合 (internal cohesion) と外的分離 (external isolation) が達成されるような部分集合に分割すること [Everitt 93, 大橋 85] です.統計解析や多変量解析の分野ではクラスター分析 (cluster analysis) とも呼ばれ,基的なデータ解析手法としてデータマイニングでも頻繁に利用されています. 分割後の各部分集合はクラスタと呼ばれます.分割の方法にも幾つかの種類があり,全ての分類対象がちょうど一つだけのクラスタの要素となる場合(ハードなもしくは,クリスプなクラスタといいます)や,逆に一つのクラスタが複数のクラスタに同時に部分的に所属する場合(ソフト,または,ファジィなクラスタといいます)があります.ここでは前者のハードな場合のクラスタリングについて述べます.

    クラスタリング (クラスター分析) - Toshihiro Kamishima
  • kmeansで楽できる(かもしれない)パッケージを作った - yokkunsの日記

    k-means法は、非階層的クラスタリングの代表的な手法ですごく便利ですが、使って行く上で、以下の2つが問題になってきます。 初期値がランダムなので、結果がぶれる 最適なクラスタ数が分からない この2つの弱点に対して拡張版や手法が提案されていますが、すごくシンプルな方法で解決するパッケージを作ってみました。 その名もykmeansパッケージ・・・! http://cran.r-project.org/web/packages/ykmeans/index.html ※改良とか拡張とかしてるわけではないので、kmeans2とか付けるのは自重した このパッケージは、上記の二つの問題に対して、以下のアプローチで対応しています。 N回(デフォルトは100)実行して、一番分類されたクラスタを採用する 任意の変数のクラスタ内分散の平均値が小さくなるクラスタ数を採用する N回実行して一番多く分類されたクラ

    kmeansで楽できる(かもしれない)パッケージを作った - yokkunsの日記
  • パッケージユーザーのための機械学習(1):決定木 - 渋谷駅前で働くデータサイエンティストのブログ

    (※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります) だいぶ前に「糞コードで頑張る機械学習シリーズ」と言うのを始めようとしたんですが、パーセプトロンをPythonで実装した次にMatlabで書いたSMO-SVMコードをPythonに移植しようと思っているうちに時間が過ぎ。。。 あまつさえ転職したら、今の現場にはライブラリ皆無でほぼ全ての機械学習のコードをPython / Java / C++のどれでも書ける化け物^H^H「教授」がいてそんなこと僕がやる必要性は完全になくなってしまったのでした(笑)。 ということで、カテゴリ名はそのまま*1ながら方向性を変えて、僕のようなパッケージやライブラリに依存するユーザーが機械学習を実践する際に原理上のどのような点に気を付けて実装・実践すべきかを、僕自身の備忘録のためにだらだらと書いていくシリーズにしてみようと思います

    パッケージユーザーのための機械学習(1):決定木 - 渋谷駅前で働くデータサイエンティストのブログ
  • TopCoder マラソンマッチ AlleleClassifier に参加した(11/154位) - 唯物是真 @Scaled_Wurm

    マラソンマッチというのは10日間ぐらいの期間で問題を分析しコードを書いてスコアを競う競技です。 今回ので3回めのマラソンマッチ参加。 序盤は上位にいられたのですが、終盤は失速してしまいましたorz 順位表 http://community.topcoder.com/longcontest/stats/?module=ViewOverview&rd=15876 問題の説明 AlleleClassifier 問題の内容は与えられたデータ点(\(x, y\)の2次元の値)の6つのラベルへの分類でした。 与えられたデータ点はいくつかのマップごとに与えられています。 ラベルは'0'、'0 or 1'、'1'、'1 or 2'、'2'、'>2'となっていて、マップ内のデータ点は\(z = x - y\)の値の昇順に6つのラベルに分けられています。 問題文にも書いてあるのですが、マップごとに大きく値とラ

    TopCoder マラソンマッチ AlleleClassifier に参加した(11/154位) - 唯物是真 @Scaled_Wurm
  • Cluster Analysis 徳山研究室M2 鈴木 晶子 発表内容 ・ クラスタリングとは ・ 大量のデータを操作するために、クラスタリン グメソッドに要求されること ・ クラスタリング技術の紹介 ‐ 分割

    Cluster Analysis 徳山研究室M2 鈴木 晶子 発表内容 ・ クラスタリングとは ・ 大量のデータを操作するために、クラスタリン グメソッドに要求されること ・ クラスタリング技術の紹介 ‐ 分割法、階層的手法、密度に基づく方法、 格子に基づく方法、モデルに基づく方法 ・ Outlier detection 1 クラスタリングとは ・ クラスタリング(Clustering) ‐ データをクラス(class)またはクラスタ (cluster)にグループ化すること ‐ 同じクラスタに属するオブジェクトを比較し た時には、互いに高い類似性をもつ ‐ 異なるクラスタに属するオブジェクトを比較 した時には、高い相違性をもつ ‐ 非類似度(dissimilarity)は、オブジェクトを 記述する属性値に基づいて評価される クラスタリングの応用(1/2) ・ クラスタリングは多く

  • 1