确保 Nutch 已抓取特定域的所有页面

Ensure that Nutch has crawled all pages of a particular domain

我正在使用 Nutch 从单个域收集所有数据。如何确保 Nutch 已抓取给定域下的每个页面？

这在技术上是不可能的。由于您可以在同一域下拥有的不同页面的数量没有限制。对于动态生成的网站尤其如此。您可以做的是查找 sitemap.xml 并确保所有这些 URL 都是 Nutch 的 crawled/indexed。由于站点地图表明这些是 URL，因此您可以将它们用作需要抓取的内容的指南。

Nutch 有一个站点地图处理器，可以将站点地图中的所有 URL 注入当前的 crawdb（即它将 "schedule" 那些要抓取的 URL）。

作为提示，甚至 Google 也会强制执行深度爬网时从同一域中索引的 URL 的最大数量。这通常称为抓取预算。