基于 Hadoop MapReduce 的 Web Java 爬虫

Hadoop MapReduce Based Web Java Crawler

我想使用 MapReduce 架构实现一个基于 Hadoop 框架的 java 爬虫,并在 HBase 中插入内容。 我尝试结合这两个教程:

Basic web crawler example

MapReduce tutorial

但是我无法理解这个概念。从页面中提取链接的逻辑放在哪里? Mapper 的输入数据类型是什么? 提前致谢

只需使用 Apache Nutch - 它基于 Hadoop,拥有您需要的一切,甚至更多。