PHPBB Robots.txt 规则?
PHPBB Robots.txt Rules?
我目前正在编辑我的 Robots.txt,它看起来像这样:
User-agent: *
Disallow: /adm/*
Disallow: /download/*
Disallow: /cache
Disallow: /files
Disallow: /viewforum.php?f=146
Disallow: /ucp.php
Disallow: /mcp.php
Disallow: /memberlist.php
Disallow: /config.php
Disallow: /cron.php
Disallow: /faq.php
Disallow: /report.php
Sitemap: http://www.website.com/app.php/sitemap.xml
但是我想知道如何正确地做一些事情。
1) 这会正确阻止搜索引擎访问论坛区域吗?
Disallow: /viewforum.php?f=146
我希望一个区域对搜索引擎隐藏,但论坛的其余区域可以正常阅读。
2) 您如何阻止对内部 PHPBB 文件夹的访问并使搜索引擎无法访问管理员?这些规则正确吗?
Disallow: /adm/*
Disallow: /download/*
3) php 文件的规则是否正常工作?
Disallow: /ucp.php
还有什么我应该知道或做的吗?
您只能通过 robots.txt 禁止目录,不能禁止文件。
首先,从目录中删除星号。
Disallow: /adm/
Disallow: /download/
至于文件,您可以将其添加到 < HEAD > 部分。它不会阻止机器人获取,但好的机器人应该忽略它并继续前进。
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
行
Disallow: /viewforum.php?f=146
禁止抓取路径 以 /viewforum.php?f=146
.
开头的 URL
所以 URL 这样的内容将不允许被抓取:
http://example.com/viewforum.php?f=146
http://example.com/viewforum.php?f=1461
http://example.com/viewforum.php?f=146a
http://example.com/viewforum.php?f=146/foo
http://example.com/viewforum.php?f=146&bar
- …
(当然,/ucp.php
、/adm/
和 /download/
的工作原理相同。请注意,这意味着不需要附加的 *
,除非它实际上是 URL 的一部分。)
所以如果论坛概览在http://example.com/viewforum.php?f=146
,它会被屏蔽。但是,请注意,同一页面可能还可以从不同的 URL 访问,例如类似于:http://example.com/viewforum.php?someOtherParameter&f=146
另请注意,这不一定会阻止对该论坛区域中的论坛线程进行抓取(因为它们通常不以此路径开头)。虽然符合规范的机器人不会抓取此论坛区域页面,但它们可能会从其他地方找到指向主题的链接。
我目前正在编辑我的 Robots.txt,它看起来像这样:
User-agent: *
Disallow: /adm/*
Disallow: /download/*
Disallow: /cache
Disallow: /files
Disallow: /viewforum.php?f=146
Disallow: /ucp.php
Disallow: /mcp.php
Disallow: /memberlist.php
Disallow: /config.php
Disallow: /cron.php
Disallow: /faq.php
Disallow: /report.php
Sitemap: http://www.website.com/app.php/sitemap.xml
但是我想知道如何正确地做一些事情。
1) 这会正确阻止搜索引擎访问论坛区域吗?
Disallow: /viewforum.php?f=146
我希望一个区域对搜索引擎隐藏,但论坛的其余区域可以正常阅读。
2) 您如何阻止对内部 PHPBB 文件夹的访问并使搜索引擎无法访问管理员?这些规则正确吗?
Disallow: /adm/*
Disallow: /download/*
3) php 文件的规则是否正常工作?
Disallow: /ucp.php
还有什么我应该知道或做的吗?
您只能通过 robots.txt 禁止目录,不能禁止文件。 首先,从目录中删除星号。
Disallow: /adm/
Disallow: /download/
至于文件,您可以将其添加到 < HEAD > 部分。它不会阻止机器人获取,但好的机器人应该忽略它并继续前进。
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
行
Disallow: /viewforum.php?f=146
禁止抓取路径 以 /viewforum.php?f=146
.
所以 URL 这样的内容将不允许被抓取:
http://example.com/viewforum.php?f=146
http://example.com/viewforum.php?f=1461
http://example.com/viewforum.php?f=146a
http://example.com/viewforum.php?f=146/foo
http://example.com/viewforum.php?f=146&bar
- …
(当然,/ucp.php
、/adm/
和 /download/
的工作原理相同。请注意,这意味着不需要附加的 *
,除非它实际上是 URL 的一部分。)
所以如果论坛概览在http://example.com/viewforum.php?f=146
,它会被屏蔽。但是,请注意,同一页面可能还可以从不同的 URL 访问,例如类似于:http://example.com/viewforum.php?someOtherParameter&f=146
另请注意,这不一定会阻止对该论坛区域中的论坛线程进行抓取(因为它们通常不以此路径开头)。虽然符合规范的机器人不会抓取此论坛区域页面,但它们可能会从其他地方找到指向主题的链接。