タグ

ClusteringとPRMLに関するagwのブックマーク (3)

  • クラスタリング (クラスター分析) - Toshihiro Kamishima

    クラスタリング (clustering) とは,分類対象の集合を,内的結合 (internal cohesion) と外的分離 (external isolation) が達成されるような部分集合に分割すること [Everitt 93, 大橋 85] です.統計解析や多変量解析の分野ではクラスター分析 (cluster analysis) とも呼ばれ,基的なデータ解析手法としてデータマイニングでも頻繁に利用されています. 分割後の各部分集合はクラスタと呼ばれます.分割の方法にも幾つかの種類があり,全ての分類対象がちょうど一つだけのクラスタの要素となる場合(ハードなもしくは,クリスプなクラスタといいます)や,逆に一つのクラスタが複数のクラスタに同時に部分的に所属する場合(ソフト,または,ファジィなクラスタといいます)があります.ここでは前者のハードな場合のクラスタリングについて述べます.

    クラスタリング (クラスター分析) - Toshihiro Kamishima
  • kmeansで楽できる(かもしれない)パッケージを作った - yokkunsの日記

    k-means法は、非階層的クラスタリングの代表的な手法ですごく便利ですが、使って行く上で、以下の2つが問題になってきます。 初期値がランダムなので、結果がぶれる 最適なクラスタ数が分からない この2つの弱点に対して拡張版や手法が提案されていますが、すごくシンプルな方法で解決するパッケージを作ってみました。 その名もykmeansパッケージ・・・! http://cran.r-project.org/web/packages/ykmeans/index.html ※改良とか拡張とかしてるわけではないので、kmeans2とか付けるのは自重した このパッケージは、上記の二つの問題に対して、以下のアプローチで対応しています。 N回(デフォルトは100)実行して、一番分類されたクラスタを採用する 任意の変数のクラスタ内分散の平均値が小さくなるクラスタ数を採用する N回実行して一番多く分類されたクラ

    kmeansで楽できる(かもしれない)パッケージを作った - yokkunsの日記
  • TopCoder マラソンマッチ AlleleClassifier に参加した(11/154位) - 唯物是真 @Scaled_Wurm

    マラソンマッチというのは10日間ぐらいの期間で問題を分析しコードを書いてスコアを競う競技です。 今回ので3回めのマラソンマッチ参加。 序盤は上位にいられたのですが、終盤は失速してしまいましたorz 順位表 http://community.topcoder.com/longcontest/stats/?module=ViewOverview&rd=15876 問題の説明 AlleleClassifier 問題の内容は与えられたデータ点(\(x, y\)の2次元の値)の6つのラベルへの分類でした。 与えられたデータ点はいくつかのマップごとに与えられています。 ラベルは'0'、'0 or 1'、'1'、'1 or 2'、'2'、'>2'となっていて、マップ内のデータ点は\(z = x - y\)の値の昇順に6つのラベルに分けられています。 問題文にも書いてあるのですが、マップごとに大きく値とラ

    TopCoder マラソンマッチ AlleleClassifier に参加した(11/154位) - 唯物是真 @Scaled_Wurm
  • 1