如何在hadoop streaming中分发Mapreduce任务
How to distribute Mapreduce task in hadoop streaming
例如我有多行日志文件
我有 mapper.py。这个脚本做解析文件。
在这种情况下,我想独立地做我的映射器
Hadoop Streaming 已经是“分布式”的,但被隔离到一个输入和输出流。您需要编写一个脚本来遍历文件和 运行 个单独的流媒体作业 per-file.
如果你想批处理很多文件,那么你应该将所有文件上传到一个HDFS文件夹,然后你可以使用mrjob
(假设你真的想要MapReduce),或者你可以切换到pyspark
并行处理它们,因为我认为没有必要按顺序进行处理。
例如我有多行日志文件 我有 mapper.py。这个脚本做解析文件。 在这种情况下,我想独立地做我的映射器
Hadoop Streaming 已经是“分布式”的,但被隔离到一个输入和输出流。您需要编写一个脚本来遍历文件和 运行 个单独的流媒体作业 per-file.
如果你想批处理很多文件,那么你应该将所有文件上传到一个HDFS文件夹,然后你可以使用mrjob
(假设你真的想要MapReduce),或者你可以切换到pyspark
并行处理它们,因为我认为没有必要按顺序进行处理。