维基解密有一个不寻常的 robots.txt。我可以抓取什么?

Wikileaks has an unusual robots.txt. What may I crawl?

我正在研究如何为 Wikileaks 编写网络爬虫。

当我到达 https://wikileaks.org/robots.txt 时,我所能看到的只是一堆看起来无伤大雅的 HTML,看起来它可能定义了一个主页或其他东西。

我是不是做错了什么?有人会把这个放在他们的 robots.txt 中吗?

这是一个错误,可能是某些服务器配置错误。一个好的 robots.txt 尽可能简单,以确保即使是最便宜的爬虫也能得到它。

On 2016-01-03,维基解密的 robots.txt 是:

User-Agent: *
Disallow: /talk/

On 2016-01-05,它是一份 HTML 纯文本文件。

从以下日期 in 2016 and in 2017 开始的所有抓取似乎都显示了同样的无效内容(我只进行了抽查)。

所以,正式来说,现在可以抓取所有内容了。但这显然是他们这边的一个错误,礼貌地尊重他们最后的工作 robots.txt:除了路径以 /talk/.[=16= 开头的 URL 之外,所有内容都允许被抓取]