在 Nutch 中是否可以有不同的获取间隔?

Is it possible to have different fetch interval in Nutch?

是否可以对我列出的每个 URL 或一组 URL 使用不同的提取间隔?

如果没有,有没有我可以随时用来获取 URL 的命令(这样我就可以使用 cron 作业或守护进程)?

如果为种子 URL(在种子文件中定义)设置了获取间隔,您可以使用注入步骤 (https://github.com/apache/nutch/blob/master/src/java/org/apache/nutch/crawl/Injector.java#L69-L72) 的元数据部分,这样您就可以控制如何获取您的种子链接。然而,发现的链接将有自己的调度,但也许你可以编写一些东西来传播 nutch.fetchIntervalnutch.fetchInterval.fixed 到你的种子文件的外链,这样同一主机上的所有链接都会有相同的提取间隔(或您自己的算法)。

也就是说,您还可以编写自己的自定义获取计划(类似于与 Nutch 捆绑的计划:mimetype/default/adaptative)来实现您的自定义逻辑。