余弦相似度如何与K-means算法一起使用?
How does cosine similarity used with K-means algorithm?
对于在 VSM 中的向量中具有不同长度的三个文本文档向量,其中条目是术语的 tf-idf:
Q1: k-means 使用的余弦相似度如何影响聚类的构建。
Q2: 当我使用 TF-IDF 算法时。它产生负值我的计算有什么问题吗?
请使用以下文档向量是 VSM (tf.idf),其中所有向量长度都不同,以供解释之用。
Doc1 (0.134636045, -0.000281926, -0.000281926, -0.000281926, -0.000281926, 0)
Doc2 (-0.002354898, 0.012411358, 0.012411358, 0.09621575, 0.3815553)
Doc3(-0.001838258, 0.009688438, 0.019376876, 0.05633028, 0.59569238, 0.103366223, 0)
我会感谢任何人可以解释我的问题。
余弦相似度意味着您取向量的点积 / k 均值中心而不是欧氏距离。
点积是 a.xb.x + a.yb.y ... + a.zz*b.zz 用于所有维度。您通常首先对向量进行归一化。然后在结果上调用 acos()。
本质上,您是将结果划分为扇区而不是 randomly-clumped 簇。
对于在 VSM 中的向量中具有不同长度的三个文本文档向量,其中条目是术语的 tf-idf:
Q1: k-means 使用的余弦相似度如何影响聚类的构建。
Q2: 当我使用 TF-IDF 算法时。它产生负值我的计算有什么问题吗?
请使用以下文档向量是 VSM (tf.idf),其中所有向量长度都不同,以供解释之用。
Doc1 (0.134636045, -0.000281926, -0.000281926, -0.000281926, -0.000281926, 0)
Doc2 (-0.002354898, 0.012411358, 0.012411358, 0.09621575, 0.3815553)
Doc3(-0.001838258, 0.009688438, 0.019376876, 0.05633028, 0.59569238, 0.103366223, 0)
我会感谢任何人可以解释我的问题。
余弦相似度意味着您取向量的点积 / k 均值中心而不是欧氏距离。
点积是 a.xb.x + a.yb.y ... + a.zz*b.zz 用于所有维度。您通常首先对向量进行归一化。然后在结果上调用 acos()。
本质上,您是将结果划分为扇区而不是 randomly-clumped 簇。