Robots.txt 和子文件夹
Robots.txt and sub-folders
几个域被配置为我的主要托管帐户(共享托管)的附加组件。
目录结构如下所示(主域为 example.com):
- public_html (example.com)
- _sub
- ex1 --> 显示为示例-realtor.com
- ex2 --> 显示为示例-author.com
- ex3 --> 显示为示例-blogger.com
(使用 example
作为域的 SO 要求使解释更加困难 - 例如,sub ex1 可能指向 plutorealty,ex2 可能指向 amazon,或其他一些业务子-和我一起托管。关键是每个 ex# 都是不同公司的网站,所以在心理上用一些正常的和不同的东西代替每个 "example")
因为这些域(ex1、ex2 等)是附加域,所以可以通过两种方式访问它们(理想情况下,第二种方法只有我知道):
(1) http://example1.com
(2) http://example.com/_sub/ex1/index.php
同样,example1.com
是一个与 example.com
完全无关的 website/domain 名称
问题:
(a) 站点将如何在搜索引擎上编入索引? (1) 和 (2) 都会出现在搜索结果中吗? 不希望方法2出现在google)
(b) 我应该在 public_html
中放置一个 robots.txt 来禁止 _sub 文件夹中的每个文件夹吗?例如:
User-agent: *
Disallow: /_sub/
Disallow: /_sub/ex1/
Disallow: /_sub/ex2/
Disallow: /_sub/ex3/
(c) 是否有更通用的配置附加域的方法?
不要将多站点功能与 Google 一起使用。 Google 对主域的排名也有影响。如果黑帽和垃圾邮件生成子目录站点。
我的建议如果您需要子类别上的重要站点,那么将所有子域设置为 noindex 。
Robot.txt
User-agent: *
Disallow: /_sub/
Disallow: /_sub/ex1/
Disallow: /_sub/ex2/
Disallow: /_sub/ex3/
这个robots.txt就足够了,你不必列出/_sub/
之后的任何内容:
User-agent: *
Disallow: /_sub/
这将禁止机器人(尊重 robots.txt)抓取路径以 /_sub/
开头的任何 URL。但这并不一定能阻止这些机器人为您的 URL 本身编制索引(例如,将它们列在搜索结果中)。
理想情况下,您可以使用 HTTP status code 301 从 http://example.com/_sub/ex1/
重定向到 http://example1.com/
。这取决于您的服务器如何工作(对于 Apache,您可以使用 .htaccess
)。然后每个人最终都会进入您网站的规范 URL。
几个域被配置为我的主要托管帐户(共享托管)的附加组件。
目录结构如下所示(主域为 example.com):
- public_html (example.com)
- _sub
- ex1 --> 显示为示例-realtor.com
- ex1 --> 显示为示例-realtor.com
- ex2 --> 显示为示例-author.com
- ex2 --> 显示为示例-author.com
- ex3 --> 显示为示例-blogger.com
- ex3 --> 显示为示例-blogger.com
(使用 example
作为域的 SO 要求使解释更加困难 - 例如,sub ex1 可能指向 plutorealty,ex2 可能指向 amazon,或其他一些业务子-和我一起托管。关键是每个 ex# 都是不同公司的网站,所以在心理上用一些正常的和不同的东西代替每个 "example")
因为这些域(ex1、ex2 等)是附加域,所以可以通过两种方式访问它们(理想情况下,第二种方法只有我知道):
(1) http://example1.com
(2) http://example.com/_sub/ex1/index.php
同样,example1.com
是一个与 example.com
问题:
(a) 站点将如何在搜索引擎上编入索引? (1) 和 (2) 都会出现在搜索结果中吗? 不希望方法2出现在google)
(b) 我应该在 public_html
中放置一个 robots.txt 来禁止 _sub 文件夹中的每个文件夹吗?例如:
User-agent: *
Disallow: /_sub/
Disallow: /_sub/ex1/
Disallow: /_sub/ex2/
Disallow: /_sub/ex3/
(c) 是否有更通用的配置附加域的方法?
不要将多站点功能与 Google 一起使用。 Google 对主域的排名也有影响。如果黑帽和垃圾邮件生成子目录站点。
我的建议如果您需要子类别上的重要站点,那么将所有子域设置为 noindex 。
Robot.txt
User-agent: *
Disallow: /_sub/
Disallow: /_sub/ex1/
Disallow: /_sub/ex2/
Disallow: /_sub/ex3/
这个robots.txt就足够了,你不必列出/_sub/
之后的任何内容:
User-agent: *
Disallow: /_sub/
这将禁止机器人(尊重 robots.txt)抓取路径以 /_sub/
开头的任何 URL。但这并不一定能阻止这些机器人为您的 URL 本身编制索引(例如,将它们列在搜索结果中)。
理想情况下,您可以使用 HTTP status code 301 从 http://example.com/_sub/ex1/
重定向到 http://example1.com/
。这取决于您的服务器如何工作(对于 Apache,您可以使用 .htaccess
)。然后每个人最终都会进入您网站的规范 URL。