Robots.txt 文件以允许除一个以外的所有根 php 文件并禁止所有子文件夹内容
Robots.txt file to allow all root php files except one and disallow all subfolders content
在以下情况下,我似乎正在努力处理 robots.txt 文件。我希望所有根文件夹 *.php 文件都被索引,但一个文件 (exception.php) 除外,并且不希望根文件夹的所有子目录中的所有内容都被索引。
我尝试了以下方法,但它允许访问子目录中的 php 个文件,即使子目录通常没有索引?
.....
# robots.txt
User-agent: *
Allow: /*.php
disallow: /*
disallow: /exceptions.php
.....
有人可以帮忙吗?
对于将 Disallow
值中的 *
解释为通配符的爬虫(它不是 robots.txt 规范的一部分,但无论如何许多爬虫都支持它),这应该有效:
User-agent: *
Disallow: /exceptions.php
Disallow: /*/
这不允许像这样的 URL:
https://example.com/exceptions.php
https://example.com//
https://example.com/foo/
https://example.com/foo/bar.php
它允许这样的 URL:
https://example.com/
https://example.com/foo.php
https://example.com/bar.html
对于不将 Disallow
值中的 *
解释为通配符的爬虫,您必须列出所有子文件夹(在第一级):
User-agent: *
Disallow: /exceptions.php
Disallow: /foo/
Disallow: /bar/
在以下情况下,我似乎正在努力处理 robots.txt 文件。我希望所有根文件夹 *.php 文件都被索引,但一个文件 (exception.php) 除外,并且不希望根文件夹的所有子目录中的所有内容都被索引。
我尝试了以下方法,但它允许访问子目录中的 php 个文件,即使子目录通常没有索引?
.....
# robots.txt
User-agent: *
Allow: /*.php
disallow: /*
disallow: /exceptions.php
.....
有人可以帮忙吗?
对于将 Disallow
值中的 *
解释为通配符的爬虫(它不是 robots.txt 规范的一部分,但无论如何许多爬虫都支持它),这应该有效:
User-agent: *
Disallow: /exceptions.php
Disallow: /*/
这不允许像这样的 URL:
https://example.com/exceptions.php
https://example.com//
https://example.com/foo/
https://example.com/foo/bar.php
它允许这样的 URL:
https://example.com/
https://example.com/foo.php
https://example.com/bar.html
对于不将 Disallow
值中的 *
解释为通配符的爬虫,您必须列出所有子文件夹(在第一级):
User-agent: *
Disallow: /exceptions.php
Disallow: /foo/
Disallow: /bar/