PHPBB Robots.txt 规则?

PHPBB Robots.txt Rules?

我目前正在编辑我的 Robots.txt,它看起来像这样:

User-agent: *
Disallow: /adm/*
Disallow: /download/*
Disallow: /cache
Disallow: /files
Disallow: /viewforum.php?f=146
Disallow: /ucp.php
Disallow: /mcp.php
Disallow: /memberlist.php
Disallow: /config.php
Disallow: /cron.php
Disallow: /faq.php
Disallow: /report.php
Sitemap: http://www.website.com/app.php/sitemap.xml

但是我想知道如何正确地做一些事情。

1) 这会正确阻止搜索引擎访问论坛区域吗?

Disallow: /viewforum.php?f=146

我希望一个区域对搜索引擎隐藏,但论坛的其余区域可以正常阅读。

2) 您如何阻止对内部 PHPBB 文件夹的访问并使搜索引擎无法访问管理员?这些规则正确吗?

Disallow: /adm/*
Disallow: /download/*

3) php 文件的规则是否正常工作?

Disallow: /ucp.php

还有什么我应该知道或做的吗?

您只能通过 robots.txt 禁止目录,不能禁止文件。 首先,从目录中删除星号。

Disallow: /adm/
Disallow: /download/

至于文件,您可以将其添加到 < HEAD > 部分。它不会阻止机器人获取,但好的机器人应该忽略它并继续前进。

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Disallow: /viewforum.php?f=146

禁止抓取路径 /viewforum.php?f=146.

开头的 URL

所以 URL 这样的内容将不允许被抓取:

  • http://example.com/viewforum.php?f=146
  • http://example.com/viewforum.php?f=1461
  • http://example.com/viewforum.php?f=146a
  • http://example.com/viewforum.php?f=146/foo
  • http://example.com/viewforum.php?f=146&bar

(当然,/ucp.php/adm//download/ 的工作原理相同。请注意,这意味着不需要附加的 *,除非它实际上是 URL 的一部分。)

所以如果论坛概览在http://example.com/viewforum.php?f=146,它会被屏蔽。但是,请注意,同一页面可能还可以从不同的 URL 访问,例如类似于:http://example.com/viewforum.php?someOtherParameter&f=146

另请注意,这不一定会阻止对该论坛区域中的论坛线程进行抓取(因为它们通常不以此路径开头)。虽然符合规范的机器人不会抓取此论坛区域页面,但它们可能会从其他地方找到指向主题的链接。