如何在hadoop streaming中分发Mapreduce任务

How to distribute Mapreduce task in hadoop streaming

例如我有多行日志文件 我有 mapper.py。这个脚本做解析文件。 在这种情况下,我想独立地做我的映射器

Hadoop Streaming 已经是“分布式”的,但被隔离到一个输入和输出流。您需要编写一个脚本来遍历文件和 运行 个单独的流媒体作业 per-file.

如果你想批处理很多文件,那么你应该将所有文件上传到一个HDFS文件夹,然后你可以使用mrjob(假设你真的想要MapReduce),或者你可以切换到pyspark 并行处理它们,因为我认为没有必要按顺序进行处理。