余弦相似度如何与K-means算法一起使用？

Question

对于在 VSM 中的向量中具有不同长度的三个文本文档向量，其中条目是术语的 tf-idf：

Q1: k-means 使用的余弦相似度如何影响聚类的构建。

Q2: 当我使用 TF-IDF 算法时。它产生负值我的计算有什么问题吗？

请使用以下文档向量是 VSM (tf.idf)，其中所有向量长度都不同，以供解释之用。

Doc1 (0.134636045, -0.000281926, -0.000281926, -0.000281926, -0.000281926, 0)
Doc2 (-0.002354898, 0.012411358, 0.012411358, 0.09621575, 0.3815553)
Doc3(-0.001838258, 0.009688438, 0.019376876, 0.05633028, 0.59569238, 0.103366223, 0)

我会感谢任何人可以解释我的问题。

Answer 1

余弦相似度意味着您取向量的点积 / k 均值中心而不是欧氏距离。

点积是 a.xb.x + a.yb.y ... + a.zz*b.zz 用于所有维度。您通常首先对向量进行归一化。然后在结果上调用 acos()。

本质上，您是将结果划分为扇区而不是 randomly-clumped 簇。

余弦相似度如何与K-means算法一起使用？

How does cosine similarity used with K-means algorithm?

algorithm

trigonometry

cluster-analysis

k-means

cosine-similarity