Robots.txt申请
Robots.txt for application
网站内的应用程序是否可以拥有自己的 robots.txt 文件?
例如,我在 http://www.example.com
下有一个站点 运行,它有它的 robots.txt 文件。
然后我们有一个单独的站点 运行 作为此域下的应用程序:http://www.example.com/website-app
是否可以为应用程序单独保留 robots.txt 文件,或者我是否需要将应用程序的所有内容放入主根 robots.txt?
robots.txt
文件需要驻留在 /robots.txt
中,无法告诉爬虫它可以在其他任何地方找到(例如网站图标)。因此,如果可以的话,您应该将其添加到您的根 robots.txt
(或者将您的应用程序放在子域中,而不是它可以拥有自己的文件)。
如果您想单独控制特定页面,您可以使用 <meta>
标签,如 robotstxt.org 中所述。由于这需要放在每个页面上,因此爬虫至少会访问(但不是索引)一个页面,但它不会跟随其他页面(除非您告诉它)。对于子目录中的小型应用程序,这可能是一个不错的解决方案。
网站内的应用程序是否可以拥有自己的 robots.txt 文件?
例如,我在 http://www.example.com
下有一个站点 运行,它有它的 robots.txt 文件。
然后我们有一个单独的站点 运行 作为此域下的应用程序:http://www.example.com/website-app
是否可以为应用程序单独保留 robots.txt 文件,或者我是否需要将应用程序的所有内容放入主根 robots.txt?
robots.txt
文件需要驻留在 /robots.txt
中,无法告诉爬虫它可以在其他任何地方找到(例如网站图标)。因此,如果可以的话,您应该将其添加到您的根 robots.txt
(或者将您的应用程序放在子域中,而不是它可以拥有自己的文件)。
如果您想单独控制特定页面,您可以使用 <meta>
标签,如 robotstxt.org 中所述。由于这需要放在每个页面上,因此爬虫至少会访问(但不是索引)一个页面,但它不会跟随其他页面(除非您告诉它)。对于子目录中的小型应用程序,这可能是一个不错的解决方案。