Robots.txt 文件以允许除一个以外的所有根 php 文件并禁止所有子文件夹内容

Robots.txt file to allow all root php files except one and disallow all subfolders content

在以下情况下,我似乎正在努力处理 robots.txt 文件。我希望所有根文件夹 *.php 文件都被索引,但一个文件 (exception.php) 除外,并且不希望根文件夹的所有子目录中的所有内容都被索引。

我尝试了以下方法,但它允许访问子目录中的 php 个文件,即使子目录通常没有索引?

.....

# robots.txt 
User-agent: *
Allow: /*.php
disallow: /*
disallow: /exceptions.php

.....

有人可以帮忙吗?

对于将 Disallow 值中的 * 解释为通配符的爬虫(它不是 robots.txt 规范的一部分,但无论如何许多爬虫都支持它),这应该有效:

User-agent: *
Disallow: /exceptions.php
Disallow: /*/

这不允许像这样的 URL:

  • https://example.com/exceptions.php
  • https://example.com//
  • https://example.com/foo/
  • https://example.com/foo/bar.php

它允许这样的 URL:

  • https://example.com/
  • https://example.com/foo.php
  • https://example.com/bar.html

对于不将 Disallow 值中的 * 解释为通配符的爬虫,您必须列出所有子文件夹(在第一级):

User-agent: *
Disallow: /exceptions.php
Disallow: /foo/
Disallow: /bar/