dbscan基于密度的聚类算法

linyiqun · linyiqun · commit 5afe53a2d909 · 2015-03-26T09:18:49.000+08:00
dbscan基于密度的聚类算法
diff --git a/Others/DataMining_DBSCAN/Client.java b/Others/DataMining_DBSCAN/Client.java
@@ -0,0 +1,19 @@
+package DataMining_DBSCAN;
+
+/**
+ * Dbscan�����ܶȵľ����㷨������
+ * @author lyq
+ *
+ */
+public class Client {
+	public static void main(String[] args){
+		String filePath = "C:\\Users\\lyq\\Desktop\\icon\\input.txt";
+		//��ɨ��뾶
+		double eps = 3;
+		//��С����������ֵ
+		int minPts = 3;
+		
+		DBSCANTool tool = new DBSCANTool(filePath, eps, minPts);
+		tool.dbScanCluster();
+	}
+}
diff --git a/Others/DataMining_DBSCAN/DBSCANTool.java b/Others/DataMining_DBSCAN/DBSCANTool.java
@@ -0,0 +1,209 @@
+package DataMining_DBSCAN;
+
+import java.io.BufferedReader;
+import java.io.File;
+import java.io.FileReader;
+import java.io.IOException;
+import java.text.MessageFormat;
+import java.util.ArrayList;
+
+/**
+ * DBSCAN�����ܶȾ����㷨������
+ * 
+ * @author lyq
+ * 
+ */
+public class DBSCANTool {
+	// ���������ļ���ַ
+	private String filePath;
+	// ��ɨ��뾶
+	private double eps;
+	// ��С����������ֵ
+	private int minPts;
+	// ���е����������
+	private ArrayList<Point> totalPoints;
+	// �۴ؽ��
+	private ArrayList<ArrayList<Point>> resultClusters;
+	//��������
+	private ArrayList<Point> noisePoint;
+
+	public DBSCANTool(String filePath, double eps, int minPts) {
+		this.filePath = filePath;
+		this.eps = eps;
+		this.minPts = minPts;
+		readDataFile();
+	}
+
+	/**
+	 * ���ļ��ж�ȡ����
+	 */
+	public void readDataFile() {
+		File file = new File(filePath);
+		ArrayList<String[]> dataArray = new ArrayList<String[]>();
+
+		try {
+			BufferedReader in = new BufferedReader(new FileReader(file));
+			String str;
+			String[] tempArray;
+			while ((str = in.readLine()) != null) {
+				tempArray = str.split(" ");
+				dataArray.add(tempArray);
+			}
+			in.close();
+		} catch (IOException e) {
+			e.getStackTrace();
+		}
+
+		Point p;
+		totalPoints = new ArrayList<>();
+		for (String[] array : dataArray) {
+			p = new Point(array[0], array[1]);
+			totalPoints.add(p);
+		}
+	}
+
+	/**
+	 * �ݹ��Ѱ�Ҿ۴�
+	 * 
+	 * @param pointList
+	 *            ��ǰ�ĵ��б�
+	 * @param parentCluster
+	 *            ���۴�
+	 */
+	private void recursiveCluster(Point point, ArrayList<Point> parentCluster) {
+		double distance = 0;
+		ArrayList<Point> cluster;
+
+		// ����Ѿ����ʹ��ˣ�������
+		if (point.isVisited) {
+			return;
+		}
+
+		point.isVisited = true;
+		cluster = new ArrayList<>();
+		for (Point p2 : totalPoints) {
+			// ���˵������������
+			if (point.isTheSame(p2)) {
+				continue;
+			}
+
+			distance = point.ouDistance(p2);
+			if (distance <= eps) {
+				// �������С�ڸ����İ뾶����������
+				cluster.add(p2);
+			}
+		}
+
+		if (cluster.size() >= minPts) {
+			// ���Լ�Ҳ���뵽�۴���
+			cluster.add(point);
+			// ��������Ľڵ������������ֵ������뵽���۴���,ͬʱȥ���ظ��ĵ�
+			addCluster(parentCluster, cluster);
+
+			for (Point p : cluster) {
+				recursiveCluster(p, parentCluster);
+			}
+		}
+	}
+
+	/**
+	 * �����۴������Ӿֲ��������
+	 * 
+	 * @param parentCluster
+	 *            ԭʼ���۴������
+	 * @param cluster
+	 *            ���ϲ��ľ۴�
+	 */
+	private void addCluster(ArrayList<Point> parentCluster,
+			ArrayList<Point> cluster) {
+		boolean isCotained = false;
+		ArrayList<Point> addPoints = new ArrayList<>();
+
+		for (Point p : cluster) {
+			isCotained = false;
+			for (Point p2 : parentCluster) {
+				if (p.isTheSame(p2)) {
+					isCotained = true;
+					break;
+				}
+			}
+
+			if (!isCotained) {
+				addPoints.add(p);
+			}
+		}
+
+		parentCluster.addAll(addPoints);
+	}
+
+	/**
+	 * dbScan�㷨�����ܶȵľ���
+	 */
+	public void dbScanCluster() {
+		ArrayList<Point> cluster = null;
+		resultClusters = new ArrayList<>();
+		noisePoint = new ArrayList<>();
+		
+		for (Point p : totalPoints) {
+			if(p.isVisited){
+				continue;
+			}
+			
+			cluster = new ArrayList<>();
+			recursiveCluster(p, cluster);
+
+			if (cluster.size() > 0) {
+				resultClusters.add(cluster);
+			}else{
+				noisePoint.add(p);
+			}
+		}
+		removeFalseNoise();
+		
+		printClusters();
+	}
+	
+	/**
+	 * �Ƴ���������������������
+	 */
+	private void removeFalseNoise(){
+		ArrayList<Point> totalCluster = new ArrayList<>();
+		ArrayList<Point> deletePoints = new ArrayList<>();
+		
+		//���۴غϲ�
+		for(ArrayList<Point> list: resultClusters){
+			totalCluster.addAll(list);
+		} 
+		
+		for(Point p: noisePoint){
+			for(Point p2: totalCluster){
+				if(p2.isTheSame(p)){
+					deletePoints.add(p);
+				}
+			}
+		}
+		
+		noisePoint.removeAll(deletePoints);
+	}
+
+	/**
+	 * ���������
+	 */
+	private void printClusters() {
+		int i = 1;
+		for (ArrayList<Point> pList : resultClusters) {
+			System.out.print("�۴�" + (i++) + ":");
+			for (Point p : pList) {
+				System.out.print(MessageFormat.format("({0},{1}) ", p.x, p.y));
+			}
+			System.out.println();
+		}
+		
+		System.out.println();
+		System.out.print("��������:");
+		for (Point p : noisePoint) {
+			System.out.print(MessageFormat.format("({0},{1}) ", p.x, p.y));
+		}
+		System.out.println();
+	}
+}
diff --git a/Others/DataMining_DBSCAN/Point.java b/Others/DataMining_DBSCAN/Point.java
@@ -0,0 +1,56 @@
+package DataMining_DBSCAN;
+
+/**
+ * �������
+ * 
+ * @author lyq
+ * 
+ */
+public class Point {
+	// ����������
+	int x;
+	// �����������
+	int y;
+	// �˽ڵ��Ƿ��Ѿ������ʹ�
+	boolean isVisited;
+
+	public Point(String x, String y) {
+		this.x = (Integer.parseInt(x));
+		this.y = (Integer.parseInt(y));
+		this.isVisited = false;
+	}
+
+	/**
+	 * ���㵱ǰ�����ƶ���֮���ŷʽ����
+	 * 
+	 * @param p
+	 *            ����������p��
+	 * @return
+	 */
+	public double ouDistance(Point p) {
+		double distance = 0;
+
+		distance = (this.x - p.x) * (this.x - p.x) + (this.y - p.y)
+				* (this.y - p.y);
+		distance = Math.sqrt(distance);
+
+		return distance;
+	}
+
+	/**
+	 * �ж�2��������Ƿ�Ϊ�ø������
+	 * 
+	 * @param p
+	 *            ���Ƚ������
+	 * @return
+	 */
+	public boolean isTheSame(Point p) {
+		boolean isSamed = false;
+
+		if (this.x == p.x && this.y == p.y) {
+			isSamed = true;
+		}
+
+		return isSamed;
+	}
+}
diff --git a/Others/DataMining_DBSCAN/input.txt b/Others/DataMining_DBSCAN/input.txt
@@ -0,0 +1,19 @@
+2 2
+3 1
+3 4
+3 14
+5 3
+8 3
+8 6
+9 8
+10 4
+10 7
+10 10
+10 14
+11 13
+12 8
+12 15
+14 7
+14 9
+14 15
+15 8

-Original file line number
+Diff line change
@@ @@ -0,0 +1,19 @@ @@
 +2 2
 +3 1
 +3 4
 +3 14
 +5 3
 +8 3
 +8 6
 +9 8
 +10 4
 +10 7
 +10 10
 +10 14
 +11 13
 +12 8
 +12 15
 +14 7
 +14 9
 +14 15
 +15 8