如何在生产环境中 运行 nutch
How to run nutch in production enviornment
我正在用 nutch 试验一些爬行周期,想设置一个分布式爬行环境。但我想知道如何在生产系统中为传入的爬网请求触发 nutch。我阅读了有关 nutch REST api 的内容。这是我真正的选择吗?或者我可以 运行 通过任何其他选项作为连续 运行ning 分布式服务器吗?
我喜欢的 nutch 版本是 nutch 1.12。
正如 sujen 所说,有两种选择:-
- 如果您想远程向 nutch 提交抓取请求,请使用 REST api。
此处描述了获得此 运行ning 的步骤:-
- 否则,您可以 运行 bin/crawl 来自 runtime/deploy 的脚本来启动请求以使用 hadoop 分发 nutch。
我正在用 nutch 试验一些爬行周期,想设置一个分布式爬行环境。但我想知道如何在生产系统中为传入的爬网请求触发 nutch。我阅读了有关 nutch REST api 的内容。这是我真正的选择吗?或者我可以 运行 通过任何其他选项作为连续 运行ning 分布式服务器吗?
我喜欢的 nutch 版本是 nutch 1.12。
正如 sujen 所说,有两种选择:-
- 如果您想远程向 nutch 提交抓取请求,请使用 REST api。 此处描述了获得此 运行ning 的步骤:-
- 否则,您可以 运行 bin/crawl 来自 runtime/deploy 的脚本来启动请求以使用 hadoop 分发 nutch。