维基解密有一个不寻常的 robots.txt。我可以抓取什么？

Question

我正在研究如何为 Wikileaks 编写网络爬虫。

当我到达 https://wikileaks.org/robots.txt 时，我所能看到的只是一堆看起来无伤大雅的 HTML，看起来它可能定义了一个主页或其他东西。

我是不是做错了什么？有人会把这个放在他们的 robots.txt 中吗？

Answer 1

这是一个错误，可能是某些服务器配置错误。一个好的 robots.txt 尽可能简单，以确保即使是最便宜的爬虫也能得到它。

Answer 2

On 2016-01-03，维基解密的 robots.txt 是：

User-Agent: *
Disallow: /talk/

On 2016-01-05，它是一份 HTML 纯文本文件。

从以下日期 in 2016 and in 2017 开始的所有抓取似乎都显示了同样的无效内容（我只进行了抽查）。

所以，正式来说，现在可以抓取所有内容了。但这显然是他们这边的一个错误，礼貌地尊重他们最后的工作 robots.txt：除了路径以 /talk/.[=16= 开头的 URL 之外，所有内容都允许被抓取]

Wikileaks has an unusual robots.txt. What may I crawl?