从 tomcat 中删除 robots.txt
Removing robots.txt from tomcat
如果我从我的 webapps 根目录中删除 robots.txt,是否允许 Google 机器人抓取我网站中的页面?
我们已经禁止所有机器人,但我们想将其删除。
所以请澄清一下,因为机器人缺少 robots.txt 文件是否意味着不爬入该网站?
缺少 robots.txt
文件,意味着任何人都可以无限抓取它。
此外,大多数网站不需要 robots.txt 文件。
更好的做法是 robots.txt
列出不允许的路径,而不是 rejecting/blocking 基于 User-Agent 字符串的 HTTP 请求。
一点旁注:
在动态网页上,使用 User-Agent 字符串在运行时过滤机器人程序相对容易,但拒绝静态资产(如文件或图像)上的机器人程序可能更难。
此外,许多机器人甚至在其用户代理字符串中甚至没有单词 bot
或 crawler
,这使得区分人类和机器人变得更加困难。
如果我从我的 webapps 根目录中删除 robots.txt,是否允许 Google 机器人抓取我网站中的页面?
我们已经禁止所有机器人,但我们想将其删除。 所以请澄清一下,因为机器人缺少 robots.txt 文件是否意味着不爬入该网站?
缺少 robots.txt
文件,意味着任何人都可以无限抓取它。
此外,大多数网站不需要 robots.txt 文件。
更好的做法是 robots.txt
列出不允许的路径,而不是 rejecting/blocking 基于 User-Agent 字符串的 HTTP 请求。
一点旁注:
在动态网页上,使用 User-Agent 字符串在运行时过滤机器人程序相对容易,但拒绝静态资产(如文件或图像)上的机器人程序可能更难。
此外,许多机器人甚至在其用户代理字符串中甚至没有单词 bot
或 crawler
,这使得区分人类和机器人变得更加困难。