余弦相似度与 Okapi BM25 有何不同?
How cosine similarity differs from Okapi BM25?
我正在使用 elasticsearch 进行研究。我打算使用余弦相似度,但我注意到它不可用,而是我们将 BM25 作为默认评分函数。
这有什么原因吗?余弦相似度是否不适用于查询文档?为什么默认选择 BM25?
谢谢
elasticsearch 长期使用 TF/IDF 算法来查找查询中的相似性。但之前的数字版本改为BM25,效率更高。您可以阅读 the documentation. And good article explains what is elastic search and how to the similarity in ES.
中的信息
您还可以将自定义算法写入elasticsearch。 Here a good article about how to do.
我正在使用 elasticsearch 进行研究。我打算使用余弦相似度,但我注意到它不可用,而是我们将 BM25 作为默认评分函数。
这有什么原因吗?余弦相似度是否不适用于查询文档?为什么默认选择 BM25? 谢谢
elasticsearch 长期使用 TF/IDF 算法来查找查询中的相似性。但之前的数字版本改为BM25,效率更高。您可以阅读 the documentation. And good article explains what is elastic search and how to the similarity in ES.
中的信息您还可以将自定义算法写入elasticsearch。 Here a good article about how to do.