Hadoop MapReduce:将数据从 mapper 复制到 reducer
Hadoop MapReduce: Replicating the data from mapper to reducer
我正在从映射器获得所需的输出,但未排序。有什么方法可以对 Mapper 输出进行排序,或者有什么方法可以将来自 mapper 的确切数据复制到 reducer(希望数据将在 reduce 阶段进行排序)?由于我是Hadoop的新手,如果您有任何示例代码,请提供帮助。
映射器的输出:
1,abcd,76
5,yyht,87
3,ddfg,43
我希望这个结果是有序的。
MapReduce 中有一个称为洗牌的阶段。这发生在 Map 阶段之后和将数据发送到 reducer 之前。洗牌主要有两个阶段,一个是排序,一个是分组。您不需要显式地对映射器的输出进行排序。
这是一个简单的例子。
(Hello, 1) (Hello, 1) (A, 1) (boss, 1) > These will be first sorted
(A,1), (boss,1), (Hello,1), (Hello,1) > Sorting done on the KEY, and now groupping
(A,<1>), (boss, <1>), (Hello,<1,1>) > (Key,List<Values>)
我正在从映射器获得所需的输出,但未排序。有什么方法可以对 Mapper 输出进行排序,或者有什么方法可以将来自 mapper 的确切数据复制到 reducer(希望数据将在 reduce 阶段进行排序)?由于我是Hadoop的新手,如果您有任何示例代码,请提供帮助。
映射器的输出:
1,abcd,76 5,yyht,87 3,ddfg,43
我希望这个结果是有序的。
MapReduce 中有一个称为洗牌的阶段。这发生在 Map 阶段之后和将数据发送到 reducer 之前。洗牌主要有两个阶段,一个是排序,一个是分组。您不需要显式地对映射器的输出进行排序。
这是一个简单的例子。
(Hello, 1) (Hello, 1) (A, 1) (boss, 1) > These will be first sorted
(A,1), (boss,1), (Hello,1), (Hello,1) > Sorting done on the KEY, and now groupping
(A,<1>), (boss, <1>), (Hello,<1,1>) > (Key,List<Values>)