Apache Nutch 重启爬取

Apache Nutch restart crawl

我是运行 Apache Nutch 1.12 本地模式。

我需要编辑种子文件以删除一个子域并添加一些新域，并且想从头开始重新开始抓取。

问题是每当我重新开始爬网时，爬网都会从我停止的地方重新开始，它位于我删除的子域的中间。

我通过终止 java 进程 (kill -9) 停止了抓取 - 我尝试在 bin 目录中创建一个 .STOP 文件但是没有用所以我使用了 kill.

现在，每当我重新启动爬网时，我都可以从输出中看到它正在重新启动作业停止的地方。我用谷歌搜索发现停止了 hadoop 作业，但我的服务器上没有任何 hadoop 文件 - 对 hadoop 的唯一引用是 apache nutch 目录中的 jar 文件。

如何从头开始而不是从上次停止爬网的地方重新开始爬网？实际上我想开始新的爬行。

非常感谢

要从头开始，只需指定一个不同的爬网目录或删除现有目录。

从种子列表中删除条目不会影响 crawdb 或段的内容。要删除域而不从零重新开始，您可以做的是向 url 过滤器添加一个模式，以便在更新步骤期间从 crawdb 中删除 URL，或者至少在生成步骤期间不选择。