Apache Nutch Crawler - 仅在现有 table 中抓取新注入的 URL

Apache Nutch Crawler - Crawl new injected URLs in existing table only

我必须通过 Nutch 抓取一些 URL。为此,我每次都必须提供种子 URL。因此它们每次都被注入到同一个 table 中。现在,随着时间的流逝,数据库将增加,在生成阶段,它会查找所有需要时间的 URL。有什么方法可以指示 Nutch 仅抓取新注入的 URL,而不查看 table(对于旧 URL)。 或者是否有更好的方法。

  1. (假设 "table" 代表 Nutch 2.x 使用的 "WebTable" 将抓取的网页保存在支持的存储后端之一 HBase 中,等):生成器通过批次 ID 标记提取列表,请参阅脚本 bin/crawl 了解如何使用批次 ID 的详细信息。它是一个任意但唯一的字符串,不会太长,因为某些存储后端有长度限制(请参阅 gora-*-mapping.xml)。要跳过生成步骤,您可以使用任何其他工具使用自定义批处理 ID 标记新注入的 URL,然后调用 fetchparseupdatedbindex 使用这个ID.

  2. (如果它是关于 Nutch 1.x)有一个工具 freegen 可以获取 URL 列表(一个文本文件)并从中创建一个段。然后调用 fetchparseupdatedbindex 将创建的段的路径作为参数传递。