关于机器人和内容拦截的几个问题

Question

我正在为机器人配置 robots.txt 文件，但无法真正理解我应该阻止它们访问哪些目录。当然，我已经在 Internet 上阅读了一些信息，但是我想知道的和目前发现的有一些差距。所以，如果你能帮助我并回答一些问题，那就太好了：

我应该在 robots.txt 阻止机器人做什么？没那么简单。例如，我在根目录中有一个 PHP 文件索引（几乎包含所有内容），其中包含引擎的目录，名为 ADMIN。在这个目录中有很多目录和文件，其中一些实际上是根文件夹中的 INDEX 使用的数据。这里的重点是，如果我阻止机器人访问 ADMIN 目录，它是否仍会正常获取从 ADMIN 目录获取的 INDEX 中的所有数据？
和以前一样，有一个 INDEX PHP 文件，其中有一个 PHP 脚本，可以为下一页生成自动链接（当然是有限的；取决于 ADMIN 目录中的数据量).这是否通常被机器人索引为正常链接以及此链接之后的所有数据？
如果我想阻止机器人访问 ADMIN 目录及其中的所有文件，写这个就够了吗？
```
User-agent: *
Disallow: /ADMIN/
```

Answer 1

机器人不关心您的内部服务器端系统（好吧，他们一开始就看不到）。

他们像人类访问者一样访问您的网站：通过点击链接（来自您自己的网站、来自外部网站、来自您的站点地图等），有些人可能还 "guess" URL s.

所以重要的是你的 URL。

如果您不想让机器人访问 URL ("crawl")，请在您的 robots.txt.

中禁止它

这个robots.txt

# hosted at http://example.com/

User-agent: *
Disallow: /ADMIN/

将禁止抓取 URL 如下所示：

但仍允许抓取以下 URL：

Couple of questions about robots and content blocking