(Query, Document, Relevance) 用于构建信息检索系统的免费数据集

(Query, Document, Relevance) free dataset for building an information retrieval system

我有兴趣找到像 "English Relevance Judgements File List" 这样的数据集： http://trec.nist.gov/data/qrels_eng

此数据集包含带标签的成对查询和文档。但是，它依赖于一个名为 "Data - English Documents" 的非自由语料库： http://trec.nist.gov/data/docs_eng.html

你知道任何类似这个的免费数据集吗？

旁注：该数据集将用于构建基于神经网络的信息检索系统的研究项目。

您在问题中混淆了几个 TREC collections。 ClueWeb09 和 trec.nist.gov/data/docs_eng.html 指向的文档集都是单独的 document 集。即每个文档集都有自己不同的主题（查询）和相关性判断，不属于文档集分布。

有几十种不同的 TREC 文本检索测试collections。可用的 collections 列在 TREC 数据页面 (trec.nist.gov/data.html) 中，按创建它们的 TREC 轨道组织。它们的组织方式如下方式，因为 collections 通常旨在支持该轨道旨在支持的检索问题。

一般情况下，查询和相关性判断可以直接从TREC网站下载。文档集通常必须购买：文档集要么受原始来源版权保护并且必须获得许可，要么存在与 collecting/distributing 文档集相关的其他重大费用。如果您参加 TREC，您可以免费获得一些旧的 TREC 文档集（尽管今年不再提供这种选择）。一些文档集是免费的，但大多数仍需要签署数据使用协议。 Genomics track 有一个特别的搜索任务，它的文档集是免费的，但要遵守数据使用协议。参见 http://trec.nist.gov/data/genomics.html。

格拉斯哥大学在 http://ir.dcs.gla.ac.uk/resources/test_collections/ 维护着一个指向其他可用测试 collections 的页面，其中一些是免费的。其中大部分是 pre-TREC（1992 年之前）collections，以今天的标准来看，它们非常小。（"Tiny" 你可能会发现论文审稿人对仅在小 collections 上展示的结果高度怀疑。）

艾伦·沃赫斯， TREC项目经理，美国国家标准研究院

(Query, Document, Relevance) 用于构建信息检索系统的免费数据集

(Query, Document, Relevance) free dataset for building an information retrieval system

information-retrieval

machine-learning

dataset

supervised-learning