基于 Hadoop MapReduce 的 Web Java 爬虫

Hadoop MapReduce Based Web Java Crawler

我想使用 MapReduce 架构实现一个基于 Hadoop 框架的 java 爬虫，并在 HBase 中插入内容。我尝试结合这两个教程：

Basic web crawler example

MapReduce tutorial

但是我无法理解这个概念。从页面中提取链接的逻辑放在哪里？ Mapper 的输入数据类型是什么？提前致谢

只需使用 Apache Nutch - 它基于 Hadoop，拥有您需要的一切，甚至更多。