只包含'User-agent: *'的robots.txt是什么意思?
What is the meaning of a robots.txt that only contains 'User-agent: *'?
我正在尝试抓取网站,但 robots.txt 只有以下行:
User-agent: *
意思是我爬他们的网站不在乎吗?
是的,如果 User-agent: *
是 robots.txt 中的唯一行,您可以抓取所有内容。
只有 Disallow
行有权列出(开头)URL 不能抓取的路径。如果 robots.txt 没有 Disallow
行,则没有任何内容是不允许的。
也就是说,robots.txt 的作者可能犯了一个错误。 User-agent
行通常后跟 Disallow
行(或其他,如 Allow
等)。没有必要开始记录¹,但不为匹配的用户代理说明任何内容。
¹ 一条记录以一行或多行 User-agent
行开头,并用空行与其他记录分隔。 User-agent: *
匹配 robots.txt.
中任何其他 User-agent
行不匹配的所有用户代理
我正在尝试抓取网站,但 robots.txt 只有以下行:
User-agent: *
意思是我爬他们的网站不在乎吗?
是的,如果 User-agent: *
是 robots.txt 中的唯一行,您可以抓取所有内容。
只有 Disallow
行有权列出(开头)URL 不能抓取的路径。如果 robots.txt 没有 Disallow
行,则没有任何内容是不允许的。
也就是说,robots.txt 的作者可能犯了一个错误。 User-agent
行通常后跟 Disallow
行(或其他,如 Allow
等)。没有必要开始记录¹,但不为匹配的用户代理说明任何内容。
¹ 一条记录以一行或多行 User-agent
行开头,并用空行与其他记录分隔。 User-agent: *
匹配 robots.txt.
User-agent
行不匹配的所有用户代理