如何修改crawdb中URL的抓取间隔?
How to modify fetch interval of URLs in the crawldb?
假设我已将 db.fetch.interval.default
配置为具有值 10
。此外,假设我已经成功抓取了一个网站(例如 http://example.com
)。此时,crawdb 中的所有 URL 将具有 10 天的提取间隔。
问题:我想更改一个特定 URL 的获取间隔,比如说 http://example.com/daily-news/
。我想编辑 crawdb 以将 http://example.com/daily-news/
的提取间隔从 10 天更改为 2 天。如何编辑 crawdb?
CrawlDb 是一个 Hadoop 映射文件,不应对其进行编辑。 Nutch "inject" 命令提供了一个选项 -overwrite
,它允许覆盖现有条目并设置自定义获取间隔。 URL 文件应包含(制表符分隔):
http://myUrl/ <tab> nutch.fetchInterval=custom_interval_in_sec
有关详细信息,请查看 bin/nutch inject
显示的命令行帮助。然后您可以使用 bin/nutch readdb <crawldb> <myUrl>
验证覆盖的记录。另请注意,被覆盖记录的提取状态已丢失。它设置为 "injected".
假设我已将 db.fetch.interval.default
配置为具有值 10
。此外,假设我已经成功抓取了一个网站(例如 http://example.com
)。此时,crawdb 中的所有 URL 将具有 10 天的提取间隔。
问题:我想更改一个特定 URL 的获取间隔,比如说 http://example.com/daily-news/
。我想编辑 crawdb 以将 http://example.com/daily-news/
的提取间隔从 10 天更改为 2 天。如何编辑 crawdb?
CrawlDb 是一个 Hadoop 映射文件,不应对其进行编辑。 Nutch "inject" 命令提供了一个选项 -overwrite
,它允许覆盖现有条目并设置自定义获取间隔。 URL 文件应包含(制表符分隔):
http://myUrl/ <tab> nutch.fetchInterval=custom_interval_in_sec
有关详细信息,请查看 bin/nutch inject
显示的命令行帮助。然后您可以使用 bin/nutch readdb <crawldb> <myUrl>
验证覆盖的记录。另请注意,被覆盖记录的提取状态已丢失。它设置为 "injected".