防止 googlebot 索引同一托管帐户上的其他域

Prevent googlebot from indexing other domains on same hosting account

我有一个托管帐户,用于托管 3 个网站。 三个网站都是相互独立的。

托管帐户链接到主域。让我们称之为 www.maindomain.com 并且该网站的文件位于托管的根目录中。

另外两个域 www.domainA.com 和 www.domainB.com 分别链接到子文件夹 domainA 和 domainB。

google 在 maindomain.com 的搜索结果中显示 www.maindomain.com/domainA 和 www.maindomain.com/domainB,即使 domainA 和 domainB 什么都没有与该网站有关,除了它们托管在同一个托管帐户中。

如何防止 googlebot 在抓取 maindomain.com 时将 domainA 和 domainB 子文件夹编入索引。 我可以使用 robots.txt 并阻止子文件夹抓取吗(但它会阻止 google 将 www.domainA 和 www.domainB 作为单独的实体编入索引吗?)

假设域 A 和域 B 是使用相应的子文件夹作为文档根设置的,您可以在主域中将 robots.txt 定义为

User-agent: *
Disallow: /domainA/
Disallow: /domainB/

仅排除 Googlebot 并允许所有其他人

User-agent: googlebot
Disallow: /domainA/
Disallow: /domainB/

但请记住,这些域似乎并没有像 http://domaina.com/some/path 这样的完整 URL 链接,而是 /domainA/some/path.

您首先可以通过将 href 替换为完全限定的 URL 来阻止抓取。