如何在生产环境中 运行 nutch

How to run nutch in production enviornment

我正在用 nutch 试验一些爬行周期,想设置一个分布式爬行环境。但我想知道如何在生产系统中为传入的爬网请求触发 nutch。我阅读了有关 nutch REST api 的内容。这是我真正的选择吗?或者我可以 运行 通过任何其他选项作为连续 运行ning 分布式服务器吗?

我喜欢的 nutch 版本是 nutch 1.12。

正如 sujen 所说,有两种选择:-

  1. 如果您想远程向 nutch 提交抓取请求,请使用 REST api。 此处描述了获得此 运行ning 的步骤:-

  1. 否则,您可以 运行 bin/crawl 来自 runtime/deploy 的脚本来启动请求以使用 hadoop 分发 nutch。