Crawler4j 能否在 robots.txt 中使用星号 (*) 解释通配符？

Question

我希望能够阻止网络爬虫访问 page1 以外的页面。

以下内容应该能够屏蔽所有 directories/file 个包含单词 page 的名称。所以像 /localhost/myApp/page2.xhtml 这样的东西应该被阻止。

#Disallow: /*page

以下应使包含 page1 的所有 directories/file 名称都可以访问。所以像 /localhost/myApp/page1.xhtml 这样的东西不应该被阻止。

#Allow: /*page1

问题是 crawler4j 似乎忽略了用于通配符的星号。我的 robots.txt 有问题还是星号是 crawler4j 默认不解释的东西。

Answer 1

我查看了 crawler4j source code，看起来 crawler4j 不支持 Allow 或 Disallow 中的通配符，除了星号是指令中最后一个字符的特殊情况。（然后无论如何都会忽略星号）

Can Crawler4j interpret wildcarding using astericks(*) in robots.txt?