评估网络搜索引擎的测量

Measurements to evaluate a web search engine

我目前正在开发一个小型网络搜索引擎，但不确定如何评估它。我了解可以通过其精确度和召回率来评估搜索引擎。在更 "localized" 的信息检索系统中，例如电子图书馆，我可以同时计算它们，因为我可以知道哪些内容与我的查询相关。但是在基于网络的信息检索系统中，例如Google，就不可能计算召回率，因为我不知道有多少网页是相关的。这应该意味着无法进行F-measure和其他需要相关页数的测量。

我写的都对吗？网络搜索引擎评估是否仅限于精度？我可以使用任何其他衡量标准来评估网络搜索引擎（P@k 除外）吗？

你说得对，准确率和召回率以及 F 分数/F 度量是搜索引擎性能中评估（未排序的）检索集的常用指标。

而且您也正确地认为，确定庞大数据集（例如整个 Internet 上的所有网页）的召回率和准确率分数是困难的或不可能的。对于所有搜索引擎，无论大小，我都认为考虑人际互动在信息检索中的作用很重要：使用搜索引擎的用户是否对拥有一个（排序的）相关结果列表更感兴趣，这些结果可以满足他们的信息需求或者一个 "top" 相关结果是否足以满足用户的信息需求？查看 "satisficing" as it pertains to information seeking 的概念，了解有关用户如何评估何时满足其信息需求的更多信息。

无论您使用准确率、召回率、平均准确率、平均倒数排名还是众多相关性和检索指标中的任何其他指标，这实际上取决于您尝试评估的搜索质量引擎的结果。我会首先尝试弄清楚我的小型搜索引擎的用户可能拥有哪种类型的 'information needs'：他们会寻找一系列相关文档，还是如果他们有一个文档对他们的查询需求会更有帮助'best'文件能满足他们的信息需求吗？

您可能对斯坦福大学 NLP 系提供的 Manning and Schütze "Introduction to Information Retrieval" 教科书的免费在线版本感兴趣，其中涵盖相关性和检索模型、评分等。
Google's Search Quality Evaluator training guide，它列出了关于 Google 的搜索结果 ranked/scored 的数百个维度，当您尝试了解用户的搜索结果时，您可能也会感兴趣信息搜索目标。看到决定网页的 PageRank（Google 的网页排名算法）得分的所有各种因素，真是太好了！

评估网络搜索引擎的测量

Measurements to evaluate a web search engine

search

information-retrieval

search-engine

precision-recall