如何在hadoop streaming中分发Mapreduce任务

How to distribute Mapreduce task in hadoop streaming

例如我有多行日志文件我有 mapper.py。这个脚本做解析文件。在这种情况下，我想独立地做我的映射器

Hadoop Streaming 已经是“分布式”的，但被隔离到一个输入和输出流。您需要编写一个脚本来遍历文件和运行个单独的流媒体作业 per-file.

如果你想批处理很多文件，那么你应该将所有文件上传到一个HDFS文件夹，然后你可以使用mrjob（假设你真的想要MapReduce），或者你可以切换到pyspark 并行处理它们，因为我认为没有必要按顺序进行处理。