如何计算文档与每个质心（k-means）之间的距离？

How to calculate the distance between a document and each centroid (k-means)?

我执行了 scikit-learn k-means 算法并得到了生成的质心。我有一个新文档（不在初始集合中），我想计算每个质心和新文档之间的距离，以了解它应该放在哪个簇中。

是否有内置函数可以实现该功能，还是我应该手动编写相似度函数？

您可以使用方法 predict 为矩阵中的每个样本获取最接近的簇 X:

from sklearn.cluster import KMeans

model = KMeans(n_clusters=K)
model.fit(X_train)
label = model.predict(X_test)