在 nutch 1.11 的情况下，example.com/ 和 example.com/index.html 是否被视为相同？

Question

我已将我的应用程序从 nutch 1.3 升级到 nutch 1.11。以前我曾经在 nutch 1.3.

中爬行时获取 2 个 url example.com/ 和 example.com/index.html

但是升级后我有两个。我想确认升级后的 nutch 是否足够智能以检测到这一点？

Answer 1

Nutch 1.11 将对 example.com 和示例进行抓取和索引。com/index.html，前提是

两者都包含在种子中或可通过其中一个种子的链接访问
URL 规范化或过滤规则接受两者而不规范化一个
它们没有重复（相同的内容）
它们都是真实页面，没有重定向

关于 2：regex-normalize.xml 中有一条规则执行所描述的规范化。默认情况下它是不活动的（注释掉）：

<!-- changes default pages into standard for /index.html, etc. into /
<regex>
  <pattern>/((?i)index|default)\.((?i)js[pf]{1}?[afx]?|cgi|cfm|asp[x]?|[psx]?htm[l]?|php[3456]?)(\?|&amp;|#|$)</pattern>
  <substitution>/</substitution>
</regex> -->

关于 3：Nutch 1.8 的重复数据删除已得到显着改进，现在不再对索引进行操作，而是直接在 CrawlDb 中标记重复项。但是，您应该在日志中看到两个 URL 都已提取，稍后根据提取内容的校验和进行复制。

在 nutch 1.11 的情况下，example.com/ 和 example.com/index.html 是否被视为相同？

Are example.com/ and example.com/index.html considered same in case of nutch 1.11?

nutch