两阶段文档检索中的排序评价方法

Ranking evaluation approach in two stage document retrieval

我创建了一个基于查询文档对之间的文本相似性(余弦相似性)的两阶段排名系统。现在我需要验证我的排名系统检索到的正确排名的项目对于用户来说是否正确,我应该选择哪种方法。我阅读了 Pointwise/Pairwise/Listwise 验证排名的方法,但对于排名系统的手动评估,这会更有帮助。如果有人能启发一种更好的排名评估策略策略,那将对我很有帮助。谢谢

如果我答对了,您正在寻找一种评估方法来确定您的两阶段检索系统是否运行良好。如果这是真的,您可以使用以下评估方法之一:

  • 相关性判断:您可以使用带有数百个查询和显式相关性判断的类似 TREC 的集合,并使用 IR 评估指标(如 MAP、P@10、NDCG 等)来评估您的模型。
  • A/B 测试:其实你可以在你的检索系统的第二阶段显示初始结果和重新排序的结果,让用户判断重新排序的结果是否更好.
  • 点击数据:如果您可以访问搜索引擎日志,您可以使用用户的点击信息来评估您的模型。为此,您应该注意几个偏差问题,例如位置偏差问题。

在上述策略中,第一个应该更容易,成本更低。您只需要访问非私有的 TREC 数据(但您需要支付几百美元才能访问其中的大部分数据)。