如何在本地测试 Map 和 Reduce 代码?

How to locally Test Map and Reduce Code?

如果我有一个从多个 csv 文件读取并生成键值对的 map.py 文件,我该如何将它们传递给我的 reducer.py 并在本地进行测试?

如果您使用的是 hadoop 流,那么您可以像这样在本地测试您的脚本:

cat *.csv | map.py | sort -k1,1 | reducer.py

要在 hadoop-streaming 中将数据从 mapper 传递到 reducer,只需将 "<key>\t<value>" 写入 stdout