如何在nutch中获取爬取任务的工作状态

How to get job status of crawl tasks in nutch

在一个爬行周期中,我们有许多 tasks/phases,例如 inject、generate、fetch、parse、updatedb、invertlinks、dedup 和一个 index 工作。 现在我想知道是否有任何方法可以通过以下方式获取抓取任务的 status(无论是 运行 还是失败)除了引用 hadoop.log 文件之外还有什么方法吗? 更准确地说,我想知道我是否可以跟踪 generate/fetch/parse 阶段的状态?任何帮助将不胜感激。

你应该总是 运行 Nutch with Hadoop 在伪或完全分布式模式下,这样你就可以使用 Hadoop UI 来跟踪你的抓取进度,查看日志对于每一步,访问计数器(非常有用!)。