想了解Robots.txt

Question

我想抓取一个网站。但是，我想先弄清楚 robots.txt 。我不明白的行是

User-agent: *
Disallow: /*/*/*/*/*/*/*/*/
Disallow: /*?&*&*
Disallow: /*?*&*
Disallow: /*|*

User Agent Line 是否意味着在任何地方都可以访问？但是后来我有一条 Disallow 线，这是我关心的主要线。这是否意味着不访问 8 层深，或者根本不访问？

Answer 1

我相信人们可以简单地用 regex 解释 robot.txt 文件。星号通常可以解释为anything/everything.

User-Agent 行 User-agent: * 并不意味着您可以抓取所有内容，它只是意味着 以下规则适用于所有用户代理。以下是用户代理的示例

# Chrome Browser
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36
# Python requests default
python-requests/2.19.1

必须遵守相同的规则，即：

例如 Disallow: /*?*&* 表示您不允许 抓取 /some_sub_domain?param_name=param_value.[=19= 形式的子域]
或/*/*/*/*/*/*/*/*/行表示不允许抓取以下形式的子域/a/b/c/d/e/f/g/i/

最后，here are insightful examples 以及关于该主题的更多内容。

想了解Robots.txt

Want to understand Robots.txt

scrapy

web-scraping

scrapinghub