为什么余弦相似度和TF-IDF一起使用?
Why are Cosine Similarity and TF-IDF used together?
TF-IDF
and Cosine Similarity
is a commonly used combination for
text clustering. Each document is represented by vectors of TF-IDF
weights.
这是我的教科书上说的。
利用余弦相似度,您可以计算这些文档之间的相似度。
但为什么要同时使用这些技术?
有什么好处?
是否也可以使用 Jaccard 相似度?
我知道,它是如何工作的,但我想知道,为什么这些技术。
TF-IDF 是使用的权重。
余弦是使用的度量。
您可以在不加权的情况下使用余弦,但结果通常会更差。 Jaccard 适用于集合 - 如何使用权重而不将其变成其他东西而不使其与余弦相同并不明显。
TF-IDF
andCosine Similarity
is a commonly used combination for text clustering. Each document is represented by vectors of TF-IDF weights.
这是我的教科书上说的。
利用余弦相似度,您可以计算这些文档之间的相似度。
但为什么要同时使用这些技术?
有什么好处?
是否也可以使用 Jaccard 相似度?
我知道,它是如何工作的,但我想知道,为什么这些技术。
TF-IDF 是使用的权重。
余弦是使用的度量。
您可以在不加权的情况下使用余弦,但结果通常会更差。 Jaccard 适用于集合 - 如何使用权重而不将其变成其他东西而不使其与余弦相同并不明显。