TREC 比赛中的 Pooling Method

Pooling Method in TREC competitions

这是一个非常基础和愚蠢的疑问。我读过,为了防止在 TREC 竞赛(reference)中进行大量相关性评估,排名靠前的文档 参与系统返回的信息被汇集起来,以创建用于相关性评估的文档集。但是,我的疑问是:

如果大多数系统使用通用模型或具有相同参数的类似模型。例如,如果多个系统使用等级降低到 100,120,150,105 等的 LSA,那么就会出现两个问题。第一,合并此类结果可能不会真正提供与每个查询相关的文档,因为返回的文档可能会严重重叠。第二,根据参与系统使用的模型,要评估的文件实际上是有偏见的。所以相关性判断不会真正与方法无关。

我知道我在这里遗漏了一些东西,如果有人可以指导我找到丢失的东西 link,那将非常有帮助!

你是对的。池化有其自身的问题,我们必须忍受它。

但是,有一些方法可以使合并过程不那么偏向于一组特定的检索模型。

经常使用一组不同的检索模型不同的检索设置(例如,使用标题或标题和描述作为查询)有助于减少检索到的文档集中的重叠。重叠并不总是坏事,因为最终在多个列表中检索文档(对应于不同的设置或检索模型)实际上可能会强化将此文档包含在池中的信念。

TREC 遵循的另一种方法是鼓励参与系统包括手动 post-processed 运行,以确保向评估员显示的文档涉及某种手动过滤而不是它们被纯自动化算法的输出。

虽然 top-retrieved 集确实是特定检索模型的函数,但池化使用的思想是 足够的深度 (比如深度- 100),真正相关的文档很可能不会在任何检索模型的前 100 名中被检索到。因此,使用的设置(模型和查询制定策略)越多,深度越高,错过真正相关文档的可能性就越低。

但是,对于具有与构建初始池所使用的现有模型完全不同的特征的检索模型,当然可以扩展评估池。

是的,这些问题是可能的,但如果运行集足够多样化且池深度足够深,则在实践中往往无关紧要。 Justin Zobel 早在 1998 年就研究过这个问题:https://ir.webis.de/anthology/1998.sigirconf_conference-98.38/

来自 TREC-7 和 TREC-8 的 TREC 概述论文也提供了很多关于为早期 TREC ad hoc 创建的池的详细信息 collections(TREC 会议论文张贴在 trec 的出版物部分网站,trec.nist.gov)。我们还记录了合并不成功的案例。请参阅“偏差和汇集的限制”https://www.nist.gov/publications/bias-and-limits-pooling-large-collections

构建公平、general-purpose 且负担得起的大型测试 collections 是一个 on-going 研究问题。

艾伦·沃希斯

NIST