如何运行 Nutch in Hadoop伪分布式安装
How to run Nutch in Hadoop installed in pseudo-distributed mode
我在 Ubuntu 上安装了 Nutch 1.13。我可以 运行 在独立模式下进行爬网。它成功 运行s 并产生了预期的结果,但我现在不知道如何在 hadoop 中 运行 它?我在伪分布式模式下安装了 Hadoop,我想 运行 使用 Hadoop 进行 Nutch 爬网并监控它。我该怎么做?有很多关于 运行 在独立模式下使用它的教程,但我找不到任何关于如何在 Hadoop 中 运行 它的明确说明,除了我必须在之后使用 "Nutch Job"我用蚂蚁建造它。
感谢您的帮助。
确保您已经从源代码构建了 Nutch,即不要使用只能在本地模式下工作的二进制版本。使用
编译后
ant clean runtime
照常转到 runtime/deploy/bin 和 运行 脚本。
注意您需要在重新编译之前修改 conf 文件。
我在 Ubuntu 上安装了 Nutch 1.13。我可以 运行 在独立模式下进行爬网。它成功 运行s 并产生了预期的结果,但我现在不知道如何在 hadoop 中 运行 它?我在伪分布式模式下安装了 Hadoop,我想 运行 使用 Hadoop 进行 Nutch 爬网并监控它。我该怎么做?有很多关于 运行 在独立模式下使用它的教程,但我找不到任何关于如何在 Hadoop 中 运行 它的明确说明,除了我必须在之后使用 "Nutch Job"我用蚂蚁建造它。
感谢您的帮助。
确保您已经从源代码构建了 Nutch,即不要使用只能在本地模式下工作的二进制版本。使用
编译后ant clean runtime
照常转到 runtime/deploy/bin 和 运行 脚本。
注意您需要在重新编译之前修改 conf 文件。