如何计算文档与每个质心(k-means)之间的距离?
How to calculate the distance between a document and each centroid (k-means)?
我执行了 scikit-learn k-means 算法并得到了生成的质心。我有一个新文档(不在初始集合中),我想计算每个质心和新文档之间的距离,以了解它应该放在哪个簇中。
是否有内置函数可以实现该功能,还是我应该手动编写相似度函数?
您可以使用方法 predict
为矩阵中的每个样本获取最接近的簇 X
:
from sklearn.cluster import KMeans
model = KMeans(n_clusters=K)
model.fit(X_train)
label = model.predict(X_test)
我执行了 scikit-learn k-means 算法并得到了生成的质心。我有一个新文档(不在初始集合中),我想计算每个质心和新文档之间的距离,以了解它应该放在哪个簇中。
是否有内置函数可以实现该功能,还是我应该手动编写相似度函数?
您可以使用方法 predict
为矩阵中的每个样本获取最接近的簇 X
:
from sklearn.cluster import KMeans
model = KMeans(n_clusters=K)
model.fit(X_train)
label = model.predict(X_test)