在哪里可以找到搜索引擎查询的语料库?

Where can I find a corpus of search engine queries?

我有兴趣在用户生成的搜索查询之上训练一个问答系统,但到目前为止,似乎还没有这样的数据。是否有一些研究中心或行业实验室编制了搜索引擎查询语料库?

有几个这样的数据集:

雅虎 Webscope:- http://webscope.sandbox.yahoo.com/catalog.php?datatype=l

Yandex 数据集:- https://www.kaggle.com/c/yandex-personalized-web-search-challenge/data Kaggle 问题的一部分。您可以注册并下载。

还有 AOL 查询日志和 MSN 查询日志,它们在过去 10 年中被 public 用作共享任务的一部分。我不确定他们是否仍然 public。但是你可以探索一下。

Weboscope/Kaggle 数据集有一些特定的限制。我建议使用 TREC 数据集,比如这个数据集 from 2009