余弦相似度如何与K-means算法一起使用?

How does cosine similarity used with K-means algorithm?

对于在 VSM 中的向量中具有不同长度的三个文本文档向量,其中条目是术语的 tf-idf:

Q1: k-means 使用的余弦相似度如何影响聚类的构建。

Q2: 当我使用 TF-IDF 算法时。它产生负值我的计算有什么问题吗?

请使用以下文档向量是 VSM (tf.idf),其中所有向量长度都不同,以供解释之用。

Doc1 (0.134636045, -0.000281926, -0.000281926, -0.000281926, -0.000281926, 0)
Doc2 (-0.002354898, 0.012411358, 0.012411358, 0.09621575, 0.3815553)
Doc3(-0.001838258, 0.009688438, 0.019376876, 0.05633028, 0.59569238, 0.103366223, 0) 

我会感谢任何人可以解释我的问题。

余弦相似度意味着您取向量的点积 / k 均值中心而不是欧氏距离。

点积是 a.xb.x + a.yb.y ... + a.zz*b.zz 用于所有维度。您通常首先对向量进行归一化。然后在结果上调用 acos()。

本质上,您是将结果划分为扇区而不是 randomly-clumped 簇。