关于机器人和内容拦截的几个问题
Couple of questions about robots and content blocking
我正在为机器人配置 robots.txt 文件,但无法真正理解我应该阻止它们访问哪些目录。
当然,我已经在 Internet 上阅读了一些信息,但是我想知道的和目前发现的有一些差距。所以,如果你能帮助我并回答一些问题,那就太好了:
我应该在 robots.txt 阻止机器人做什么?没那么简单。例如,我在根目录中有一个 PHP 文件索引(几乎包含所有内容),其中包含引擎的目录,名为 ADMIN。在这个目录中有很多目录和文件,其中一些实际上是根文件夹中的 INDEX 使用的数据。这里的重点是,如果我阻止机器人访问 ADMIN 目录,它是否仍会正常获取从 ADMIN 目录获取的 INDEX 中的所有数据?
和以前一样,有一个 INDEX PHP 文件,其中有一个 PHP 脚本,可以为下一页生成自动链接(当然是有限的;取决于 ADMIN 目录中的数据量).这是否通常被机器人索引为正常链接以及此链接之后的所有数据?
如果我想阻止机器人访问 ADMIN 目录及其中的所有文件,写这个就够了吗?
User-agent: *
Disallow: /ADMIN/
机器人不关心您的内部服务器端系统(好吧,他们一开始就看不到)。
他们像人类访问者一样访问您的网站:通过点击链接(来自您自己的网站、来自外部网站、来自您的站点地图等),有些人可能还 "guess" URL s.
所以重要的是你的 URL。
如果您不想让机器人访问 URL ("crawl"),请在您的 robots.txt.
中禁止它
这个robots.txt
# hosted at http://example.com/
User-agent: *
Disallow: /ADMIN/
将禁止抓取 URL 如下所示:
http://example.com/ADMIN/
http://example.com/ADMIN/index.html
http://example.com/ADMIN/CMS/foo
http://example.com/ADMIN/images/foo.png
但仍允许抓取以下 URL:
http://example.com/ADMIN
http://example.com/admin/
http://example.com/foo/ADMIN/
我正在为机器人配置 robots.txt 文件,但无法真正理解我应该阻止它们访问哪些目录。 当然,我已经在 Internet 上阅读了一些信息,但是我想知道的和目前发现的有一些差距。所以,如果你能帮助我并回答一些问题,那就太好了:
我应该在 robots.txt 阻止机器人做什么?没那么简单。例如,我在根目录中有一个 PHP 文件索引(几乎包含所有内容),其中包含引擎的目录,名为 ADMIN。在这个目录中有很多目录和文件,其中一些实际上是根文件夹中的 INDEX 使用的数据。这里的重点是,如果我阻止机器人访问 ADMIN 目录,它是否仍会正常获取从 ADMIN 目录获取的 INDEX 中的所有数据?
和以前一样,有一个 INDEX PHP 文件,其中有一个 PHP 脚本,可以为下一页生成自动链接(当然是有限的;取决于 ADMIN 目录中的数据量).这是否通常被机器人索引为正常链接以及此链接之后的所有数据?
如果我想阻止机器人访问 ADMIN 目录及其中的所有文件,写这个就够了吗?
User-agent: * Disallow: /ADMIN/
机器人不关心您的内部服务器端系统(好吧,他们一开始就看不到)。
他们像人类访问者一样访问您的网站:通过点击链接(来自您自己的网站、来自外部网站、来自您的站点地图等),有些人可能还 "guess" URL s.
所以重要的是你的 URL。
如果您不想让机器人访问 URL ("crawl"),请在您的 robots.txt.
中禁止它这个robots.txt
# hosted at http://example.com/
User-agent: *
Disallow: /ADMIN/
将禁止抓取 URL 如下所示:
http://example.com/ADMIN/
http://example.com/ADMIN/index.html
http://example.com/ADMIN/CMS/foo
http://example.com/ADMIN/images/foo.png
但仍允许抓取以下 URL:
http://example.com/ADMIN
http://example.com/admin/
http://example.com/foo/ADMIN/