Hadoop中如何迭代MapReduce？ (lang: python)

Question

我写了一个 MapReduce 程序（mapper.py 和 reducer.py）来处理 Hadoop 中的 PageRank 问题。

我想对 MapReduce 进行大约 10 次迭代。如何将第一轮MapReduce的输出作为第二轮MapReduce的输入？

       1                    2                           10
[mapper->reducer] -> [mapper->reducer] -> ... -> [mapper->reducer] -> final result

Answer 1

您可以将作业 1 的输出链接为作业 2 的输入。

输入目录 1 -> 输出目录 1 -> 输出目录 2 ... -> 输出目录 9 -> 输出目录 10

How to iterate MapReduce in Hadoop? (lang: python)