如何修改crawdb中URL的抓取间隔?

How to modify fetch interval of URLs in the crawldb?

假设我已将 db.fetch.interval.default 配置为具有值 10。此外,假设我已经成功抓取了一个网站(例如 http://example.com)。此时,crawdb 中的所有 URL 将具有 10 天的提取间隔。

问题:我想更改一个特定 URL 的获取间隔,比如说 http://example.com/daily-news/。我想编辑 crawdb 以将 http://example.com/daily-news/ 的提取间隔从 10 天更改为 2 天。如何编辑 crawdb?

CrawlDb 是一个 Hadoop 映射文件,不应对其进行编辑。 Nutch "inject" 命令提供了一个选项 -overwrite,它允许覆盖现有条目并设置自定义获取间隔。 URL 文件应包含(制表符分隔):

http://myUrl/ <tab> nutch.fetchInterval=custom_interval_in_sec

有关详细信息,请查看 bin/nutch inject 显示的命令行帮助。然后您可以使用 bin/nutch readdb <crawldb> <myUrl> 验证覆盖的记录。另请注意,被覆盖记录的提取状态已丢失。它设置为 "injected".