Robots.txt 和子文件夹

Question

几个域被配置为我的主要托管帐户（共享托管）的附加组件。

目录结构如下所示（主域为 example.com）：

public_html (example.com)
_sub
- ex1 --> 显示为示例-realtor.com
- ex2 --> 显示为示例-author.com
- ex3 --> 显示为示例-blogger.com

（使用 example 作为域的 SO 要求使解释更加困难 - 例如，sub ex1 可能指向 plutorealty，ex2 可能指向 amazon，或其他一些业务子-和我一起托管。关键是每个 ex# 都是不同公司的网站，所以在心理上用一些正常的和不同的东西代替每个 "example")

因为这些域（ex1、ex2 等）是附加域，所以可以通过两种方式访问它们（理想情况下，第二种方法只有我知道）：

(1) http://example1.com
(2) http://example.com/_sub/ex1/index.php

同样，example1.com 是一个与 example.com

完全无关的 website/domain 名称

问题：

(a) 站点将如何在搜索引擎上编入索引？ (1) 和 (2) 都会出现在搜索结果中吗？ 不希望方法2出现在google)

(b) 我应该在 public_html 中放置一个 robots.txt 来禁止 _sub 文件夹中的每个文件夹吗？例如：

 User-agent: *
 Disallow: /_sub/
 Disallow: /_sub/ex1/
 Disallow: /_sub/ex2/
 Disallow: /_sub/ex3/

(c) 是否有更通用的配置附加域的方法？

Answer 1

不要将多站点功能与 Google 一起使用。 Google 对主域的排名也有影响。如果黑帽和垃圾邮件生成子目录站点。

我的建议如果您需要子类别上的重要站点，那么将所有子域设置为 noindex 。

Robot.txt

User-agent: *
 Disallow: /_sub/
 Disallow: /_sub/ex1/
 Disallow: /_sub/ex2/
 Disallow: /_sub/ex3/

Answer 2

这个robots.txt就足够了，你不必列出/_sub/之后的任何内容：

User-agent: *
Disallow: /_sub/

这将禁止机器人（尊重 robots.txt）抓取路径以 /_sub/ 开头的任何 URL。但这并不一定能阻止这些机器人为您的 URL 本身编制索引（例如，将它们列在搜索结果中）。

理想情况下，您可以使用 HTTP status code 301 从 http://example.com/_sub/ex1/ 重定向到 http://example1.com/。这取决于您的服务器如何工作（对于 Apache，您可以使用 .htaccess）。然后每个人最终都会进入您网站的规范 URL。

Robots.txt 和子文件夹

Robots.txt and sub-folders

seo

robots.txt