如何在终端调试 MapReduce 任务?

How to debug a MapReduce task on the terminal?

是否有使用终端模拟 MapReduce 作业的简单方法?我想知道是否有一种简单的方法可以在编写代码时调试它。

我习惯于使用 Python 进行 Hadoop 流式传输,但我相信该解决方案也可以复制到其他语言。所以,这就是我的解决方案:

cat input_folder/* | python map.py | sort | python reduce.py

同样值得一提的是,您可以通过简单地 运行:

查看 reducer 作为输入接收的值

cat input_folder/* | python map.py | sort