评估网络搜索引擎的测量

Measurements to evaluate a web search engine

我目前正在开发一个小型网络搜索引擎,但不确定如何评估它。我了解可以通过其精确度和召回率来评估搜索引擎。在更 "localized" 的信息检索系统中,例如电子图书馆,我可以同时计算它们,因为我可以知道哪些内容与我的查询相关。但是在基于网络的信息检索系统中,例如Google,就不可能计算召回率,因为我不知道有多少网页是相关的。这应该意味着无法进行F-measure和其他需要相关页数的测量。

我写的都对吗?网络搜索引擎评估是否仅限于精度?我可以使用任何其他衡量标准来评估网络搜索引擎(P@k 除外)吗?

你说得对,准确率和召回率以及 F 分数/F 度量是搜索引擎性能中评估(未排序的)检索集的常用指标。

而且您也正确地认为,确定庞大数据集(例如整个 Internet 上的所有网页)的召回率和准确率分数是困难的或不可能的。对于所有搜索引擎,无论大小,我都认为考虑人际互动在信息检索中的作用很重要:使用搜索引擎的用户是否对拥有一个(排序的)相关结果列表更感兴趣,这些结果可以满足他们的信息需求或者一个 "top" 相关结果是否足以满足用户的信息需求?查看 "satisficing" as it pertains to information seeking 的概念,了解有关用户如何评估何时满足其信息需求的更多信息。

无论您使用准确率、召回率、平均准确率、平均倒数排名还是​​众多相关性和检索指标中的任何其他指标,这实际上取决于您尝试评估的搜索质量引擎的结果。我会首先尝试弄清楚我的小型搜索引擎的用户可能拥有哪种类型的 'information needs':他们会寻找一系列相关文档,还是如果他们有一个文档对他们的查询需求会更有帮助'best'文件能满足他们的信息需求吗?