如何在索引到 google 时防止 URL?
How to prevent a URL while indexing in to google?
我有一个开发服务器,其中放置了 100 个网站(文件夹),但我将每个文件夹指向另一个域,但我仍然可以使用服务器 ip 或域访问该文件夹,对吗?我怎样才能停止索引由服务器的 ip 或域打开的 url?
例如:
服务器是:myserver.com
网址(文件夹):mywebsite
我可以像我的服务器一样访问它。com/mywebsite
我有另一个名为 newwebsite.com 的域并指向 myserver.com 中存在的我的网站文件夹然后我可以使用 newwebsite.com 访问同一文件夹,我需要停止索引 myserver.com/mywebsite.. 任何人都可以帮助我吗?提前致谢。
在您添加到 google 存储库的每个网站中,您都可以添加一个名为 Robots.txt
的文件。此文件包含您关于以下内容的所有规则:
- 哪些页面和 URL 将被编入索引并被关注。
- 哪些网址作为隐藏点拒绝爬虫访问。
- 以及您可以在此 documentation 中阅读的所有其他规则。
例如,您可以像这样在每个域(或子域)中阻止您喜欢的网址:
User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
不记得 robots.txt 文件必须放在每个网站的根目录下才能被爬虫检测到。
此致
我有一个开发服务器,其中放置了 100 个网站(文件夹),但我将每个文件夹指向另一个域,但我仍然可以使用服务器 ip 或域访问该文件夹,对吗?我怎样才能停止索引由服务器的 ip 或域打开的 url?
例如:
服务器是:myserver.com 网址(文件夹):mywebsite
我可以像我的服务器一样访问它。com/mywebsite
我有另一个名为 newwebsite.com 的域并指向 myserver.com 中存在的我的网站文件夹然后我可以使用 newwebsite.com 访问同一文件夹,我需要停止索引 myserver.com/mywebsite.. 任何人都可以帮助我吗?提前致谢。
在您添加到 google 存储库的每个网站中,您都可以添加一个名为 Robots.txt
的文件。此文件包含您关于以下内容的所有规则:
- 哪些页面和 URL 将被编入索引并被关注。
- 哪些网址作为隐藏点拒绝爬虫访问。
- 以及您可以在此 documentation 中阅读的所有其他规则。
例如,您可以像这样在每个域(或子域)中阻止您喜欢的网址:
User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
不记得 robots.txt 文件必须放在每个网站的根目录下才能被爬虫检测到。 此致