(Query, Document, Relevance) 用于构建信息检索系统的免费数据集

(Query, Document, Relevance) free dataset for building an information retrieval system

我有兴趣找到像 "English Relevance Judgements File List" 这样的数据集: http://trec.nist.gov/data/qrels_eng

此数据集包含带标签的成对查询和文档。 但是,它依赖于一个名为 "Data - English Documents" 的非自由语料库: http://trec.nist.gov/data/docs_eng.html

你知道任何类似这个的免费数据集吗?

旁注:该数据集将用于构建基于神经网络的信息检索系统的研究项目。

您在问题中混淆了几个 TREC collections。 ClueWeb09 和 trec.nist.gov/data/docs_eng.html 指向的文档集都是单独的 document 集。即每个文档集都有自己不同的主题(查询)和相关性判断,不属于文档集分布。

有几十种不同的 TREC 文本检索测试collections。可用的 collections 列在 TREC 数据页面 (trec.nist.gov/data.html) 中,按创建它们的 TREC 轨道组织。它们的组织方式如下方式,因为 collections 通常旨在支持该轨道旨在支持的检索问题。

一般情况下,查询和相关性判断可以直接从TREC网站下载。文档集通常必须购买:文档集要么受原始来源版权保护并且必须获得许可,要么存在与 collecting/distributing 文档集相关的其他重大费用。如果您参加 TREC,您可以免费获得一些旧的 TREC 文档集(尽管今年不再提供这种选择)。一些文档集是免费的,但大多数仍需要签署数据使用协议。 Genomics track 有一个特别的搜索任务,它的文档集是免费的,但要遵守数据使用协议。参见 http://trec.nist.gov/data/genomics.html

格拉斯哥大学在 http://ir.dcs.gla.ac.uk/resources/test_collections/ 维护着一个指向其他可用测试 collections 的页面,其中一些是免费的。其中大部分是 pre-TREC(1992 年之前)collections,以今天的标准来看,它们非常小。 ("Tiny" 你可能会发现论文审稿人对仅在小 collections 上展示的结果高度怀疑。)

艾伦·沃赫斯, TREC项目经理, 美国国家标准研究院