关于机器人和内容拦截的几个问题

Couple of questions about robots and content blocking

我正在为机器人配置 robots.txt 文件,但无法真正理解我应该阻止它们访问哪些目录。 当然,我已经在 Internet 上阅读了一些信息,但是我想知道的和目前发现的有一些差距。所以,如果你能帮助我并回答一些问题,那就太好了:

机器人不关心您的内部服务器端系统(好吧,他们一开始就看不到)。

他们像人类访问者一样访问您的网站:通过点击链接(来自您自己的网站、来自外部网站、来自您的站点地图等),有些人可能还 "guess" URL s.

所以重要的是你的 URL。

如果您不想让机器人访问 URL ("crawl"),请在您的 robots.txt.

中禁止它

这个robots.txt

# hosted at http://example.com/

User-agent: *
Disallow: /ADMIN/

将禁止抓取 URL 如下所示:

  • http://example.com/ADMIN/
  • http://example.com/ADMIN/index.html
  • http://example.com/ADMIN/CMS/foo
  • http://example.com/ADMIN/images/foo.png

但仍允许抓取以下 URL:

  • http://example.com/ADMIN
  • http://example.com/admin/
  • http://example.com/foo/ADMIN/