Robots.txt申请

Robots.txt for application

网站内的应用程序是否可以拥有自己的 robots.txt 文件？

例如，我在 http://www.example.com 下有一个站点运行，它有它的 robots.txt 文件。

然后我们有一个单独的站点运行作为此域下的应用程序：http://www.example.com/website-app

是否可以为应用程序单独保留 robots.txt 文件，或者我是否需要将应用程序的所有内容放入主根 robots.txt？

robots.txt 文件需要驻留在 /robots.txt 中，无法告诉爬虫它可以在其他任何地方找到（例如网站图标）。因此，如果可以的话，您应该将其添加到您的根 robots.txt（或者将您的应用程序放在子域中，而不是它可以拥有自己的文件）。

如果您想单独控制特定页面，您可以使用 <meta> 标签，如 robotstxt.org 中所述。由于这需要放在每个页面上，因此爬虫至少会访问（但不是索引）一个页面，但它不会跟随其他页面（除非您告诉它）。对于子目录中的小型应用程序，这可能是一个不错的解决方案。