gensim 中的相似度分数是什么意思?
What does Similarity Score mean in gensim?
我使用 Gensim 库来查找句子与段落集合(文本数据集)之间的相似性。我分别使用了余弦相似度、软余弦相似度和 Mover 度量。 Gensim returns 项目列表,包括 docid 和 similarity score 。对于余弦相似度和软余弦相似度,我猜相似度得分是向量之间的余弦。我说得对吗?
在Gensim的文档中,他们写的是语义相关性,并没有额外的解释。我搜索了很多,但没有找到任何答案。请帮忙
通常 'similarity',人们正在寻找一种衡量方法语义相关性 - 但计算出的特定值是否达到将取决于许多其他因素,例如作为训练数据的充分性和其他合适参数的选择。
在每个代码上下文中,'similarity' 的含义与它在那里的计算方式一样多,也不少于 - 通常是 'cosine similarity between vector representations'。 (当没有其他提示时,它意味着不同的东西,'cosine similarity' 通常是一个安全的开始假设。)
但实际上:'similarity' 在每次使用时的含义不多于也不少于一个代码路径的 docs/source-code 指示的内容。
(我意识到这似乎是一个间接且不令人满意的答案。如果在 Gensim source/docs/example 的上下文中有特定用途,其中含义不清楚,您可以指出这些,我也许可以澄清这些更多。)
我使用 Gensim 库来查找句子与段落集合(文本数据集)之间的相似性。我分别使用了余弦相似度、软余弦相似度和 Mover 度量。 Gensim returns 项目列表,包括 docid 和 similarity score 。对于余弦相似度和软余弦相似度,我猜相似度得分是向量之间的余弦。我说得对吗?
在Gensim的文档中,他们写的是语义相关性,并没有额外的解释。我搜索了很多,但没有找到任何答案。请帮忙
通常 'similarity',人们正在寻找一种衡量方法语义相关性 - 但计算出的特定值是否达到将取决于许多其他因素,例如作为训练数据的充分性和其他合适参数的选择。
在每个代码上下文中,'similarity' 的含义与它在那里的计算方式一样多,也不少于 - 通常是 'cosine similarity between vector representations'。 (当没有其他提示时,它意味着不同的东西,'cosine similarity' 通常是一个安全的开始假设。)
但实际上:'similarity' 在每次使用时的含义不多于也不少于一个代码路径的 docs/source-code 指示的内容。
(我意识到这似乎是一个间接且不令人满意的答案。如果在 Gensim source/docs/example 的上下文中有特定用途,其中含义不清楚,您可以指出这些,我也许可以澄清这些更多。)