Hadoop中如何迭代MapReduce? (lang: python)

How to iterate MapReduce in Hadoop? (lang: python)

我写了一个 MapReduce 程序(mapper.py 和 reducer.py)来处理 Hadoop 中的 PageRank 问题。

我想对 MapReduce 进行大约 10 次迭代。如何将第一轮MapReduce的输出作为第二轮MapReduce的输入?

       1                    2                           10
[mapper->reducer] -> [mapper->reducer] -> ... -> [mapper->reducer] -> final result

您可以将作业 1 的输出链接为作业 2 的输入。

输入目录 1 -> 输出目录 1 -> 输出目录 2 ... -> 输出目录 9 -> 输出目录 10