等效匹配的不同 cloudsearch 相关性分数

different cloudsearch relevance scores for equivalent matches

我是 AWS CloudSearch 的新手,已经设置了我的第一个域。它只有一个基本文本索引字段。

我已经尝试了一些简单的搜索,并且 – 通常 – 我在看起来应该相同的文档中得到了不同的相关性分数。即使搜索一个在多个文档中只匹配一次的简单单词,也经常会产生不同的分数。

这是应该发生的吗?如果是,为什么?

这是正常的。文档长度是影响这一点的一个因素。想一想:在 5 个单词的文档中找到您的查询比在 1000 个单词的文档中找到您的查询更匹配。

当前版本的 CloudSearch uses Solr/Lucene, an Apache project, so you can dig into the internals to your heart's content if you'd like to learn more. Here is the Similarity 讨论了 Lucene 中的底层评分算法。

随着应用的成熟,您可能想要查看 custom ranking 的结果。 CloudSearch 提供了此功能以及根据不同排序器比较结果的工具。您无法自定义基本文档相关性分数,但您可以根据不同领域等提高它。