基于 Hadoop MapReduce 的 Web Java 爬虫
Hadoop MapReduce Based Web Java Crawler
我想使用 MapReduce 架构实现一个基于 Hadoop 框架的 java 爬虫,并在 HBase 中插入内容。
我尝试结合这两个教程:
但是我无法理解这个概念。从页面中提取链接的逻辑放在哪里? Mapper 的输入数据类型是什么?
提前致谢
只需使用 Apache Nutch - 它基于 Hadoop,拥有您需要的一切,甚至更多。
我想使用 MapReduce 架构实现一个基于 Hadoop 框架的 java 爬虫,并在 HBase 中插入内容。 我尝试结合这两个教程:
但是我无法理解这个概念。从页面中提取链接的逻辑放在哪里? Mapper 的输入数据类型是什么? 提前致谢
只需使用 Apache Nutch - 它基于 Hadoop,拥有您需要的一切,甚至更多。