如何修改crawdb中URL的抓取间隔？

Question

假设我已将 db.fetch.interval.default 配置为具有值 10。此外，假设我已经成功抓取了一个网站（例如 http://example.com）。此时，crawdb 中的所有 URL 将具有 10 天的提取间隔。

问题：我想更改一个特定 URL 的获取间隔，比如说 http://example.com/daily-news/。我想编辑 crawdb 以将 http://example.com/daily-news/ 的提取间隔从 10 天更改为 2 天。如何编辑 crawdb？

Answer 1

CrawlDb 是一个 Hadoop 映射文件，不应对其进行编辑。 Nutch "inject" 命令提供了一个选项 -overwrite，它允许覆盖现有条目并设置自定义获取间隔。 URL 文件应包含（制表符分隔）：

http://myUrl/ <tab> nutch.fetchInterval=custom_interval_in_sec

有关详细信息，请查看 bin/nutch inject 显示的命令行帮助。然后您可以使用 bin/nutch readdb <crawldb> <myUrl> 验证覆盖的记录。另请注意，被覆盖记录的提取状态已丢失。它设置为 "injected".

How to modify fetch interval of URLs in the crawldb?