Crawler4j 能否在 robots.txt 中使用星号 (*) 解释通配符?
Can Crawler4j interpret wildcarding using astericks(*) in robots.txt?
我希望能够阻止网络爬虫访问 page1 以外的页面。
以下内容应该能够屏蔽所有 directories/file 个包含单词 page 的名称。所以像 /localhost/myApp/page2.xhtml 这样的东西应该被阻止。
#Disallow: /*page
以下应使包含 page1 的所有 directories/file 名称都可以访问。所以像 /localhost/myApp/page1.xhtml 这样的东西不应该被阻止。
#Allow: /*page1
问题是 crawler4j 似乎忽略了用于通配符的星号。我的 robots.txt 有问题还是星号是 crawler4j 默认不解释的东西。
我查看了 crawler4j source code,看起来 crawler4j 不支持 Allow 或 Disallow 中的通配符,除了星号是指令中最后一个字符的特殊情况。 (然后无论如何都会忽略星号)
我希望能够阻止网络爬虫访问 page1 以外的页面。
以下内容应该能够屏蔽所有 directories/file 个包含单词 page 的名称。所以像 /localhost/myApp/page2.xhtml 这样的东西应该被阻止。
#Disallow: /*page
以下应使包含 page1 的所有 directories/file 名称都可以访问。所以像 /localhost/myApp/page1.xhtml 这样的东西不应该被阻止。
#Allow: /*page1
问题是 crawler4j 似乎忽略了用于通配符的星号。我的 robots.txt 有问题还是星号是 crawler4j 默认不解释的东西。
我查看了 crawler4j source code,看起来 crawler4j 不支持 Allow 或 Disallow 中的通配符,除了星号是指令中最后一个字符的特殊情况。 (然后无论如何都会忽略星号)