如何在本地测试 Map 和 Reduce 代码?
How to locally Test Map and Reduce Code?
如果我有一个从多个 csv 文件读取并生成键值对的 map.py 文件,我该如何将它们传递给我的 reducer.py 并在本地进行测试?
如果您使用的是 hadoop 流,那么您可以像这样在本地测试您的脚本:
cat *.csv | map.py | sort -k1,1 | reducer.py
要在 hadoop-streaming 中将数据从 mapper 传递到 reducer,只需将 "<key>\t<value>"
写入 stdout
如果我有一个从多个 csv 文件读取并生成键值对的 map.py 文件,我该如何将它们传递给我的 reducer.py 并在本地进行测试?
如果您使用的是 hadoop 流,那么您可以像这样在本地测试您的脚本:
cat *.csv | map.py | sort -k1,1 | reducer.py
要在 hadoop-streaming 中将数据从 mapper 传递到 reducer,只需将 "<key>\t<value>"
写入 stdout