3d 坐标上的 DBSCAN 找不到簇
DBSCAN on 3d coordinates doesn't find clusters
我试图在 1428 点的 3D 坐标 DataFrame 中聚类点。
这些星团是相对平坦的平面,是细长的云 DataFrame。它们是非常明显的集群,所以我希望尝试无监督集群(不输入预期的集群数量)KMeans 没有正确分离它们并且确实需要集群的数量:
Kmeans plot results
数据如下:
5 6 7
0 9207.495280 18922.083277 4932.864
1 5831.199280 3441.735280 5756.326
2 8985.735280 12511.719280 7099.844
3 8858.223280 28883.151280 5689.652
4 6801.399277 6468.759280 7142.524
... ... ... ...
1423 10332.927277 22041.855280 5136.252
1424 6874.971277 12937.563277 5467.216
1425 8952.471280 28849.887280 5710.522
1426 7900.611277 19128.255280 4803.122
1427 10234.635277 18734.631280 5631.286
[1428 rows x 3 columns]
我希望 DBSCAN 能更好地处理这些数据。但是,当我尝试以下操作时(我玩过 eps 和 min_samples 但没有成功):
from sklearn.cluster import DBSCAN
dbscan = DBSCAN(eps=10, min_samples = 50)
clusters = dbscan.fit_predict(X)
print('Clusters found', dbscan.labels_)
len(clusters)
我得到这个输出:
Clusters found [-1 -1 -1 ... -1 -1 -1]
1428
我一直对如何让它起作用感到困惑,尤其是因为 Kmeans 确实起作用了:
kmeans = sk_cluster.KMeans(init='k-means++', n_clusters=9, n_init=50)
kmeans.fit_predict(X)
centroids = kmeans.cluster_centers_
kmeans_labels = kmeans.labels_
error = kmeans.inertia_
print ("The total error of the clustering is: ", error)
print ('\nCluster labels')
The total error of the clustering is: 4994508618.792263
Cluster labels
[8 0 7 ... 3 8 1]
记住这条黄金法则:
在将数据提供给 ML/DL 算法之前始终对数据执行归一化。
原因是,你的列有不同的范围,可能一列的范围是 [10000,20000] 而另一列的范围是 [4000,5000] 当你将这些坐标绘制在图表上时,它们会非常非常远离开,Clustering/Classification 永远不会起作用,也许回归会起作用。缩放使每一列的范围达到相同的水平,但仍保持距离但具有不同的比例。就像在 google MAPS 中一样,放大时比例减小,缩小时比例增加。
你可以自由选择归一化算法,sklearn 上大约有 20-30 种可用。
编辑:
使用此代码:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(X)
X_norm = scaler.transform(X)
from sklearn.cluster import DBSCAN
dbscan = DBSCAN(eps=0.05, min_samples = 3,leaf_size=30)
clusters = dbscan.fit_predict(X_norm)
np.unique(dbscan.labels_)
array([-1, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15,
16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32,
33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47])
我发现 DBSCAN 是一种基于密度的方法,我尝试了 sklearn normalizer(来自 sklearn.preprocessing import normalize),它基本上转换为高斯分布,但它没有用,它不应该以防万一DBSCAN 因为它要求每个特征具有相似的密度。
因此,我使用了 MinMax 缩放器,因为它应该使每个特征密度相似,并且需要注意的一件事是,由于缩放后的数据点小于 1,因此也应该在相似的范围内使用 epsilon。
荣誉:)
我试图在 1428 点的 3D 坐标 DataFrame 中聚类点。 这些星团是相对平坦的平面,是细长的云 DataFrame。它们是非常明显的集群,所以我希望尝试无监督集群(不输入预期的集群数量)KMeans 没有正确分离它们并且确实需要集群的数量: Kmeans plot results
数据如下:
5 6 7
0 9207.495280 18922.083277 4932.864
1 5831.199280 3441.735280 5756.326
2 8985.735280 12511.719280 7099.844
3 8858.223280 28883.151280 5689.652
4 6801.399277 6468.759280 7142.524
... ... ... ...
1423 10332.927277 22041.855280 5136.252
1424 6874.971277 12937.563277 5467.216
1425 8952.471280 28849.887280 5710.522
1426 7900.611277 19128.255280 4803.122
1427 10234.635277 18734.631280 5631.286
[1428 rows x 3 columns]
我希望 DBSCAN 能更好地处理这些数据。但是,当我尝试以下操作时(我玩过 eps 和 min_samples 但没有成功):
from sklearn.cluster import DBSCAN
dbscan = DBSCAN(eps=10, min_samples = 50)
clusters = dbscan.fit_predict(X)
print('Clusters found', dbscan.labels_)
len(clusters)
我得到这个输出:
Clusters found [-1 -1 -1 ... -1 -1 -1]
1428
我一直对如何让它起作用感到困惑,尤其是因为 Kmeans 确实起作用了:
kmeans = sk_cluster.KMeans(init='k-means++', n_clusters=9, n_init=50)
kmeans.fit_predict(X)
centroids = kmeans.cluster_centers_
kmeans_labels = kmeans.labels_
error = kmeans.inertia_
print ("The total error of the clustering is: ", error)
print ('\nCluster labels')
The total error of the clustering is: 4994508618.792263
Cluster labels
[8 0 7 ... 3 8 1]
记住这条黄金法则:
在将数据提供给 ML/DL 算法之前始终对数据执行归一化。
原因是,你的列有不同的范围,可能一列的范围是 [10000,20000] 而另一列的范围是 [4000,5000] 当你将这些坐标绘制在图表上时,它们会非常非常远离开,Clustering/Classification 永远不会起作用,也许回归会起作用。缩放使每一列的范围达到相同的水平,但仍保持距离但具有不同的比例。就像在 google MAPS 中一样,放大时比例减小,缩小时比例增加。
你可以自由选择归一化算法,sklearn 上大约有 20-30 种可用。
编辑:
使用此代码:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(X)
X_norm = scaler.transform(X)
from sklearn.cluster import DBSCAN
dbscan = DBSCAN(eps=0.05, min_samples = 3,leaf_size=30)
clusters = dbscan.fit_predict(X_norm)
np.unique(dbscan.labels_)
array([-1, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15,
16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32,
33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47])
我发现 DBSCAN 是一种基于密度的方法,我尝试了 sklearn normalizer(来自 sklearn.preprocessing import normalize),它基本上转换为高斯分布,但它没有用,它不应该以防万一DBSCAN 因为它要求每个特征具有相似的密度。
因此,我使用了 MinMax 缩放器,因为它应该使每个特征密度相似,并且需要注意的一件事是,由于缩放后的数据点小于 1,因此也应该在相似的范围内使用 epsilon。
荣誉:)