Apache Nutch 重启爬取
Apache Nutch restart crawl
我是 运行 Apache Nutch 1.12 本地模式。
我需要编辑种子文件以删除一个子域并添加一些新域,并且想从头开始重新开始抓取。
问题是每当我重新开始爬网时,爬网都会从我停止的地方重新开始,它位于我删除的子域的中间。
我通过终止 java 进程 (kill -9) 停止了抓取 - 我尝试在 bin 目录中创建一个 .STOP 文件但是没有用所以我使用了 kill.
现在,每当我重新启动爬网时,我都可以从输出中看到它正在重新启动作业停止的地方。我用谷歌搜索发现停止了 hadoop 作业,但我的服务器上没有任何 hadoop 文件 - 对 hadoop 的唯一引用是 apache nutch 目录中的 jar 文件。
如何从头开始而不是从上次停止爬网的地方重新开始爬网?实际上我想开始新的爬行。
非常感谢
要从头开始,只需指定一个不同的爬网目录或删除现有目录。
从种子列表中删除条目不会影响 crawdb 或段的内容。要删除域而不从零重新开始,您可以做的是向 url 过滤器添加一个模式,以便在更新步骤期间从 crawdb 中删除 URL,或者至少在生成步骤期间不选择。
我是 运行 Apache Nutch 1.12 本地模式。
我需要编辑种子文件以删除一个子域并添加一些新域,并且想从头开始重新开始抓取。
问题是每当我重新开始爬网时,爬网都会从我停止的地方重新开始,它位于我删除的子域的中间。
我通过终止 java 进程 (kill -9) 停止了抓取 - 我尝试在 bin 目录中创建一个 .STOP 文件但是没有用所以我使用了 kill.
现在,每当我重新启动爬网时,我都可以从输出中看到它正在重新启动作业停止的地方。我用谷歌搜索发现停止了 hadoop 作业,但我的服务器上没有任何 hadoop 文件 - 对 hadoop 的唯一引用是 apache nutch 目录中的 jar 文件。
如何从头开始而不是从上次停止爬网的地方重新开始爬网?实际上我想开始新的爬行。
非常感谢
要从头开始,只需指定一个不同的爬网目录或删除现有目录。
从种子列表中删除条目不会影响 crawdb 或段的内容。要删除域而不从零重新开始,您可以做的是向 url 过滤器添加一个模式,以便在更新步骤期间从 crawdb 中删除 URL,或者至少在生成步骤期间不选择。