Nutch:如何重试暂时性错误(以及其他 URL 的 none)?

Nutch: How to re-try transient errors (and none of the other URLs)?

Nutch 有时会收到某些 URL 的 SocketTimeout 或 ConnectionRefused 异常。我如何要求 Nutch 只重试这些 URL?如果我重新运行 "crawl" 命令,它告诉我没有什么要重新运行。这是可以理解的,因为 "db.fetch.interval.default" 设置为 30 天。我不想更改它,因为这甚至会影响成功的页面。我需要的是一种只重新抓取失败的抓取的方法。

有办法吗?

稍后添加:我正在使用 Nutch 1.10

如果抓取出现暂时性问题,Nutch 默认会为您重试抓取 3 次。之后页面被标记为 "gone" 并且 Nutch 将不会在 maxFetchInterval 内再次尝试获取它。 http://wiki.apache.org/nutch/CrawlDatumStates

可以通过更改nutch-default.xml中的db.fetch.retry.max属性来增加重试次数。