用 P@1 评估一个特定的信息检索系统

Evaluating a specific Information retrieval system with P@1

我正在开发一个信息检索系统,旨在 select 第一个结果并将其 link 到其他数据库。实际上,我们的系统基于视频的关键字描述,并尝试将视频插入 link 到与描述具有相同含义的 DBpedia 实体。在评估步骤中,我注意到大多数评估将精度截止值的最小值设置为 5,而在我们的系统中是不合适的。我正在考虑放置一个区间 [1,5]: (P@1,...P@5)。这可能吗? !! 请提供您的建议和参考一些笔记..谢谢..

如果你有真值标签,你绝对可以为检索系统计算 P@1。 (在这种情况下,它们听起来像是 [Video, DBPedia] 由人类生成的匹配对)。

人们通常将此衡量标准用于问答系统或推荐系统等方面。唯一需要注意的是,您通常不会用它来训练学习排序系统或任何其他学习系统——它不是 "continuous enough" 差一点(最好在排名 2)和完全未命中(最好在排名400万)获得同等分数,因此在这种情况下很难通过调整权重来顺利改进系统。

对于这些类型的任务,如果您需要一些可调的东西,使用平均倒数排名是很常见的。 NDCG 也往往没问题,因为它具有指数折扣因子。

但是精度的定义中没有任何内容阻止您在等级 1 计算它。将其描述为 "success@1" 功能可能更正确,因为您将获得 0/1或 1/1 作为您的两个选择。