sklearn 凝聚聚类输入数据
sklearn agglomerative clustering input data
我有四个用户之间的相似度矩阵。我想做一个凝聚聚类。代码是这样的:
lena = np.matrix('1 1 0 0;1 1 0 0;0 0 1 0.2;0 0 0.2 1')
X = np.reshape(lena, (-1, 1))
print("Compute structured hierarchical clustering...")
st = time.time()
n_clusters = 3 # number of regionsle
ward = AgglomerativeClustering(n_clusters=n_clusters,
linkage='complete').fit(X)
print ward
label = np.reshape(ward.labels_, lena.shape)
print("Elapsed time: ", time.time() - st)
print("Number of pixels: ", label.size)
print("Number of clusters: ", np.unique(label).size)
print label
标签的打印结果如下:
[[1 1 0 0]
[1 1 0 0]
[0 0 1 2]
[0 0 2 1]]
这是否意味着它给出了一个可能的聚类结果列表,我们可以从中选择一个?比如选择:[0,0,2,1]。如果错了,你能告诉我如何做基于相似性的凝聚算法吗?如果正确,相似度矩阵很大,如何从庞大的列表中选择最优的聚类结果?谢谢
我认为这里的问题是你用错误的数据拟合你的模型
# This will return a 4x4 matrix (similarity matrix)
lena = np.matrix('1 1 0 0;1 1 0 0;0 0 1 0.2;0 0 0.2 1')
# However this will return 16x1 matrix
X = np.reshape(lena, (-1, 1))
你得到的真实结果是这样的:
ward.labels_
>> array([1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 2, 0, 0, 2, 1])
哪个是X向量中每个元素的标签,它没有意义
如果我很理解你的问题,你需要根据用户之间的距离(相似度)对用户进行分类。那么,在这种情况下,我会建议以这种方式使用谱聚类:
import numpy as np
from sklearn.cluster import SpectralClustering
lena = np.matrix('1 1 0 0;1 1 0 0;0 0 1 0.2;0 0 0.2 1')
n_clusters = 3
SpectralClustering(n_clusters).fit_predict(lena)
>> array([1, 1, 0, 2], dtype=int32)
我有四个用户之间的相似度矩阵。我想做一个凝聚聚类。代码是这样的:
lena = np.matrix('1 1 0 0;1 1 0 0;0 0 1 0.2;0 0 0.2 1')
X = np.reshape(lena, (-1, 1))
print("Compute structured hierarchical clustering...")
st = time.time()
n_clusters = 3 # number of regionsle
ward = AgglomerativeClustering(n_clusters=n_clusters,
linkage='complete').fit(X)
print ward
label = np.reshape(ward.labels_, lena.shape)
print("Elapsed time: ", time.time() - st)
print("Number of pixels: ", label.size)
print("Number of clusters: ", np.unique(label).size)
print label
标签的打印结果如下:
[[1 1 0 0]
[1 1 0 0]
[0 0 1 2]
[0 0 2 1]]
这是否意味着它给出了一个可能的聚类结果列表,我们可以从中选择一个?比如选择:[0,0,2,1]。如果错了,你能告诉我如何做基于相似性的凝聚算法吗?如果正确,相似度矩阵很大,如何从庞大的列表中选择最优的聚类结果?谢谢
我认为这里的问题是你用错误的数据拟合你的模型
# This will return a 4x4 matrix (similarity matrix)
lena = np.matrix('1 1 0 0;1 1 0 0;0 0 1 0.2;0 0 0.2 1')
# However this will return 16x1 matrix
X = np.reshape(lena, (-1, 1))
你得到的真实结果是这样的:
ward.labels_
>> array([1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 2, 0, 0, 2, 1])
哪个是X向量中每个元素的标签,它没有意义
如果我很理解你的问题,你需要根据用户之间的距离(相似度)对用户进行分类。那么,在这种情况下,我会建议以这种方式使用谱聚类:
import numpy as np
from sklearn.cluster import SpectralClustering
lena = np.matrix('1 1 0 0;1 1 0 0;0 0 1 0.2;0 0 0.2 1')
n_clusters = 3
SpectralClustering(n_clusters).fit_predict(lena)
>> array([1, 1, 0, 2], dtype=int32)