想了解Robots.txt
Want to understand Robots.txt
我想抓取一个网站。但是,我想先弄清楚 robots.txt 。
我不明白的行是
User-agent: *
Disallow: /*/*/*/*/*/*/*/*/
Disallow: /*?&*&*
Disallow: /*?*&*
Disallow: /*|*
User Agent Line 是否意味着在任何地方都可以访问?但是后来我有一条 Disallow 线,这是我关心的主要线。这是否意味着不访问 8 层深,或者根本不访问?
我相信人们可以简单地用 regex
解释 robot.txt
文件。星号通常可以解释为anything/everything.
User-Agent 行 User-agent: *
并不意味着您可以抓取所有内容,它只是意味着 以下规则适用于所有用户代理。以下是用户代理的示例
# Chrome Browser
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36
# Python requests default
python-requests/2.19.1
必须遵守相同的规则,即:
例如 Disallow: /*?*&*
表示您不允许 抓取 /some_sub_domain?param_name=param_value
.[=19= 形式的子域]
或/*/*/*/*/*/*/*/*/
行表示不允许抓取以下形式的子域/a/b/c/d/e/f/g/i/
最后,here are insightful examples 以及关于该主题的更多内容。
我想抓取一个网站。但是,我想先弄清楚 robots.txt 。 我不明白的行是
User-agent: *
Disallow: /*/*/*/*/*/*/*/*/
Disallow: /*?&*&*
Disallow: /*?*&*
Disallow: /*|*
User Agent Line 是否意味着在任何地方都可以访问?但是后来我有一条 Disallow 线,这是我关心的主要线。这是否意味着不访问 8 层深,或者根本不访问?
我相信人们可以简单地用 regex
解释 robot.txt
文件。星号通常可以解释为anything/everything.
User-Agent 行 User-agent: *
并不意味着您可以抓取所有内容,它只是意味着 以下规则适用于所有用户代理。以下是用户代理的示例
# Chrome Browser
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36
# Python requests default
python-requests/2.19.1
必须遵守相同的规则,即:
例如
Disallow: /*?*&*
表示您不允许 抓取/some_sub_domain?param_name=param_value
.[=19= 形式的子域]或
/*/*/*/*/*/*/*/*/
行表示不允许抓取以下形式的子域/a/b/c/d/e/f/g/i/
最后,here are insightful examples 以及关于该主题的更多内容。