如何计算文档与每个质心(k-means)之间的距离?

How to calculate the distance between a document and each centroid (k-means)?

我执行了 scikit-learn k-means 算法并得到了生成的质心。我有一个新文档(不在初始集合中),我想计算每个质心和新文档之间的距离,以了解它应该放在哪个簇中。

是否有内置函数可以实现该功能,还是我应该手动编写相似度函数?

您可以使用方法 predict 为矩阵中的每个样本获取最接近的簇 X:

from sklearn.cluster import KMeans

model = KMeans(n_clusters=K)
model.fit(X_train)
label = model.predict(X_test)