如何在 robots.txt 中的所有页面添加 `nofollow, noindex`?

How to add `nofollow, noindex` all pages in robots.txt?

我想在网站构建过程中添加 nofollownoindex。客户要求我使用这些规则。

我知道

<meta name="robots" content="noindex,nofollow">

但我只能访问 robots.txt 文件。

有人知道我可以通过 robots.txt 文件应用 noindex, nofollow 规则的正确格式吗?

noindex 和 nofollow 表示您不希望您的网站在搜索引擎中被抓取。

所以只需将代码放在 robots.txt

User-agent: *
Disallow: /

表示noindex和nofollow。

存在非标准 Noindex 字段,which Google (and likely no other consumer) supported as experimental feature

遵循 robots.txt 规范,您不能禁止索引,也不能在 link 之后使用 robots.txt。

对于仍在开发中、尚未编入索引且未从可能被抓取的页面返回 link 的站点,使用 robots.txt 应该足够了:

# no bot may crawl 
User-agent: *
Disallow: /

如果该站点的页面已经被索引,and/or如果其他页面可能被抓取link到它,您必须使用noindex,不能只指定在 HTML 中,但 :

X-Robots-Tag: noindex, nofollow
  • Noindex 告诉搜索引擎不要在搜索结果中包含页面,但可以跟踪链接(也可以转移 PA 和 DA)
  • Nofollow 告诉机器人不要点击链接。我们也可以将 noindex 与 follow 结合在我们不想被索引的页面中,但我们想要跟随链接

我刚读了这个帖子,想补充一个想法。

万一有人想放置一个正在建设或开发中的网站,未经授权的用户无法查看我认为这个想法是安全的,尽管需要一点 IT 熟练程度。

任何操作系统上都有一个 "hosts" 文件,用作 DNS 条目的手动存储库,覆盖在线 DNS 服务器。

在 Windows 中,它在 C:\Windows\System32\drivers\etc\hosts 和 linuxes 发行版(Android 下)我知道它在 /etc/hosts 下。也许在 OSX 中是一样的。

想法是添加一个条目,例如

xxx.xxx.xxx.xxx anyDomain.tld

到那个文件。 在您的 server/provider 中创建域很重要,但它尚未发送到 DNS 服务器。

会发生什么:当域在服务器中创建时,它将响应对该域的调用,但互联网上没有其他人(没有浏览器)知道您站点的 IP 地址,除了您的计算机已将上述代码段添加到主机文件中。

在这种情况下,您可以将更改添加到任何有兴趣查看您的网站(并获得您的授权)的人,以防止其他人看到您的网站。在您在线发布 DNS 之前,任何爬虫都不会看到它。

我什至将它用于我家人共享的私人文件服务器。

在这里您可以找到有关如何编辑主机文件的详尽说明: https://www.howtogeek.com/howto/27350/beginner-geek-how-to-edit-your-hosts-file/