用 P@1 评估一个特定的信息检索系统

Evaluating a specific Information retrieval system with P@1

我正在开发一个信息检索系统，旨在 select 第一个结果并将其 link 到其他数据库。实际上，我们的系统基于视频的关键字描述，并尝试将视频插入 link 到与描述具有相同含义的 DBpedia 实体。在评估步骤中，我注意到大多数评估将精度截止值的最小值设置为 5，而在我们的系统中是不合适的。我正在考虑放置一个区间 [1,5]: (P@1,...P@5)。这可能吗？！！请提供您的建议和参考一些笔记..谢谢..

如果你有真值标签，你绝对可以为检索系统计算 P@1。（在这种情况下，它们听起来像是 [Video, DBPedia] 由人类生成的匹配对）。

人们通常将此衡量标准用于问答系统或推荐系统等方面。唯一需要注意的是，您通常不会用它来训练学习排序系统或任何其他学习系统——它不是 "continuous enough" 差一点（最好在排名 2）和完全未命中（最好在排名400万）获得同等分数，因此在这种情况下很难通过调整权重来顺利改进系统。

对于这些类型的任务，如果您需要一些可调的东西，使用平均倒数排名是很常见的。 NDCG 也往往没问题，因为它具有指数折扣因子。

但是精度的定义中没有任何内容阻止您在等级 1 计算它。将其描述为 "success@1" 功能可能更正确，因为您将获得 0/1或 1/1 作为您的两个选择。

用 P@1 评估一个特定的信息检索系统

Evaluating a specific Information retrieval system with P@1

precision

information-retrieval