在 nutch 1.11 的情况下,example.com/ 和 example.com/index.html 是否被视为相同?

Are example.com/ and example.com/index.html considered same in case of nutch 1.11?

我已将我的应用程序从 nutch 1.3 升级到 nutch 1.11。以前我曾经在 nutch 1.3.

中爬行时获取 2 个 url example.com/ 和 example.com/index.html

但是升级后我有两个。我想确认升级后的 nutch 是否足够智能以检测到这一点?

Nutch 1.11 将对 example.com 和示例进行抓取和索引。com/index.html,前提是

  1. 两者都包含在种子中或可通过其中一个种子的链接访问
  2. URL 规范化或过滤规则接受两者而不规范化一个
  3. 它们没有重复(相同的内容)
  4. 它们都是真实页面,没有重定向

关于 2:regex-normalize.xml 中有一条规则执行所描述的规范化。默认情况下它是不活动的(注释掉):

<!-- changes default pages into standard for /index.html, etc. into /
<regex>
  <pattern>/((?i)index|default)\.((?i)js[pf]{1}?[afx]?|cgi|cfm|asp[x]?|[psx]?htm[l]?|php[3456]?)(\?|&amp;|#|$)</pattern>
  <substitution>/</substitution>
</regex> -->

关于 3:Nutch 1.8 的重复数据删除已得到显着改进,现在不再对索引进行操作,而是直接在 CrawlDb 中标记重复项。但是,您应该在日志中看到两个 URL 都已提取,稍后根据提取内容的校验和进行复制。