如何在 robots.txt 中的所有页面添加 `nofollow, noindex`?
How to add `nofollow, noindex` all pages in robots.txt?
我想在网站构建过程中添加 nofollow
和 noindex
。客户要求我使用这些规则。
我知道
<meta name="robots" content="noindex,nofollow">
但我只能访问 robots.txt
文件。
有人知道我可以通过 robots.txt
文件应用 noindex, nofollow
规则的正确格式吗?
noindex 和 nofollow 表示您不希望您的网站在搜索引擎中被抓取。
所以只需将代码放在 robots.txt
User-agent: *
Disallow: /
表示noindex和nofollow。
存在非标准 Noindex
字段,which Google (and likely no other consumer) supported as experimental feature。
遵循 robots.txt 规范,您不能禁止索引,也不能在 link 之后使用 robots.txt。
对于仍在开发中、尚未编入索引且未从可能被抓取的页面返回 link 的站点,使用 robots.txt 应该足够了:
# no bot may crawl
User-agent: *
Disallow: /
如果该站点的页面已经被索引,and/or如果其他页面可能被抓取link到它,您必须使用noindex
,不能只指定在 HTML 中,但 :
X-Robots-Tag: noindex, nofollow
- Noindex 告诉搜索引擎不要在搜索结果中包含页面,但可以跟踪链接(也可以转移 PA 和 DA)
- Nofollow 告诉机器人不要点击链接。我们也可以将 noindex 与 follow 结合在我们不想被索引的页面中,但我们想要跟随链接
我刚读了这个帖子,想补充一个想法。
万一有人想放置一个正在建设或开发中的网站,未经授权的用户无法查看我认为这个想法是安全的,尽管需要一点 IT 熟练程度。
任何操作系统上都有一个 "hosts" 文件,用作 DNS 条目的手动存储库,覆盖在线 DNS 服务器。
在 Windows 中,它在 C:\Windows\System32\drivers\etc\hosts 和 linuxes 发行版(Android 下)我知道它在 /etc/hosts 下。也许在 OSX 中是一样的。
想法是添加一个条目,例如
xxx.xxx.xxx.xxx anyDomain.tld
到那个文件。
在您的 server/provider 中创建域很重要,但它尚未发送到 DNS 服务器。
会发生什么:当域在服务器中创建时,它将响应对该域的调用,但互联网上没有其他人(没有浏览器)知道您站点的 IP 地址,除了您的计算机已将上述代码段添加到主机文件中。
在这种情况下,您可以将更改添加到任何有兴趣查看您的网站(并获得您的授权)的人,以防止其他人看到您的网站。在您在线发布 DNS 之前,任何爬虫都不会看到它。
我什至将它用于我家人共享的私人文件服务器。
在这里您可以找到有关如何编辑主机文件的详尽说明:
https://www.howtogeek.com/howto/27350/beginner-geek-how-to-edit-your-hosts-file/
我想在网站构建过程中添加 nofollow
和 noindex
。客户要求我使用这些规则。
我知道
<meta name="robots" content="noindex,nofollow">
但我只能访问 robots.txt
文件。
有人知道我可以通过 robots.txt
文件应用 noindex, nofollow
规则的正确格式吗?
noindex 和 nofollow 表示您不希望您的网站在搜索引擎中被抓取。
所以只需将代码放在 robots.txt
User-agent: *
Disallow: /
表示noindex和nofollow。
存在非标准 Noindex
字段,which Google (and likely no other consumer) supported as experimental feature。
遵循 robots.txt 规范,您不能禁止索引,也不能在 link 之后使用 robots.txt。
对于仍在开发中、尚未编入索引且未从可能被抓取的页面返回 link 的站点,使用 robots.txt 应该足够了:
# no bot may crawl
User-agent: *
Disallow: /
如果该站点的页面已经被索引,and/or如果其他页面可能被抓取link到它,您必须使用noindex
,不能只指定在 HTML 中,但 :
X-Robots-Tag: noindex, nofollow
- Noindex 告诉搜索引擎不要在搜索结果中包含页面,但可以跟踪链接(也可以转移 PA 和 DA)
- Nofollow 告诉机器人不要点击链接。我们也可以将 noindex 与 follow 结合在我们不想被索引的页面中,但我们想要跟随链接
我刚读了这个帖子,想补充一个想法。
万一有人想放置一个正在建设或开发中的网站,未经授权的用户无法查看我认为这个想法是安全的,尽管需要一点 IT 熟练程度。
任何操作系统上都有一个 "hosts" 文件,用作 DNS 条目的手动存储库,覆盖在线 DNS 服务器。
在 Windows 中,它在 C:\Windows\System32\drivers\etc\hosts 和 linuxes 发行版(Android 下)我知道它在 /etc/hosts 下。也许在 OSX 中是一样的。
想法是添加一个条目,例如
xxx.xxx.xxx.xxx anyDomain.tld
到那个文件。 在您的 server/provider 中创建域很重要,但它尚未发送到 DNS 服务器。
会发生什么:当域在服务器中创建时,它将响应对该域的调用,但互联网上没有其他人(没有浏览器)知道您站点的 IP 地址,除了您的计算机已将上述代码段添加到主机文件中。
在这种情况下,您可以将更改添加到任何有兴趣查看您的网站(并获得您的授权)的人,以防止其他人看到您的网站。在您在线发布 DNS 之前,任何爬虫都不会看到它。
我什至将它用于我家人共享的私人文件服务器。
在这里您可以找到有关如何编辑主机文件的详尽说明: https://www.howtogeek.com/howto/27350/beginner-geek-how-to-edit-your-hosts-file/