Robots.txt 和子文件夹

Robots.txt and sub-folders

几个域被配置为我的主要托管帐户(共享托管)的附加组件。

目录结构如下所示(主域为 example.com):

(使用 example 作为域的 SO 要求使解释更加困难 - 例如,sub ex1 可能指向 plutorealty,ex2 可能指向 amazon,或其他一些业务子-和我一起托管。关键是每个 ex# 都是不同公司的网站,所以在心理上用一些正常的和不同的东西代替每个 "example")

因为这些域(ex1、ex2 等)是附加域,所以可以通过两种方式访问​​它们(理想情况下,第二种方法只有我知道)

(1) http://example1.com
(2) http://example.com/_sub/ex1/index.php

同样,example1.com 是一个与 example.com

完全无关的 website/domain 名称

问题:

(a) 站点将如何在搜索引擎上编入索引? (1) 和 (2) 都会出现在搜索结果中吗? 不希望方法2出现在google)

(b) 我应该在 public_html 中放置一个 robots.txt 来禁止 _sub 文件夹中的每个文件夹吗?例如:

 User-agent: *
 Disallow: /_sub/
 Disallow: /_sub/ex1/
 Disallow: /_sub/ex2/
 Disallow: /_sub/ex3/

(c) 是否有更通用的配置附加域的方法?

不要将多站点功能与 Google 一起使用。 Google 对主域的排名也有影响。如果黑帽和垃圾邮件生成子目录站点。

我的建议如果您需要子类别上的重要站点,那么将所有子域设置为 noindex 。

Robot.txt

User-agent: *
 Disallow: /_sub/
 Disallow: /_sub/ex1/
 Disallow: /_sub/ex2/
 Disallow: /_sub/ex3/

这个robots.txt就足够了,你不必列出/_sub/之后的任何内容:

User-agent: *
Disallow: /_sub/

这将禁止机器人(尊重 robots.txt)抓取路径以 /_sub/ 开头的任何 URL。但这并不一定能阻止这些机器人为您的 URL 本身编制索引(例如,将它们列在搜索结果中)。

理想情况下,您可以使用 HTTP status code 301http://example.com/_sub/ex1/ 重定向到 http://example1.com/。这取决于您的服务器如何工作(对于 Apache,您可以使用 .htaccess)。然后每个人最终都会进入您网站的规范 URL。