只包含'User-agent: *'的robots.txt是什么意思?

What is the meaning of a robots.txt that only contains 'User-agent: *'?

我正在尝试抓取网站,但 robots.txt 只有以下行:

User-agent: *

意思是我爬他们的网站不在乎吗?

是的,如果 User-agent: * 是 robots.txt 中的唯一行,您可以抓取所有内容。

只有 Disallow 行有权列出(开头)URL 不能抓取的路径。如果 robots.txt 没有 Disallow 行,则没有任何内容是不允许的。

也就是说,robots.txt 的作者可能犯了一个错误。 User-agent 行通常后跟 Disallow 行(或其他,如 Allow 等)。没有必要开始记录¹,但不为匹配的用户代理说明任何内容。


¹ 一条记录以一行或多行 User-agent 行开头,并用空行与其他记录分隔。 User-agent: * 匹配 robots.txt.

中任何其他 User-agent 行不匹配的所有用户代理