Hadoop streaming reducer 到 mapper

Hadoop streaming reducer to mapper

我正在用 R 编写 Hadoop 流作业,我遇到了一个相当奇怪的情况,我找不到任何文档。我想要 运行 一个直接传递给另一个映射器的缩减作业(不需要映射器)。是否可以在没有初始映射器的情况下直接在缩减作业之后堆叠映射作业?如果我编写一个身份映射器将输出传递到我的 reduce 作业,我能否将 reduce 输出传递给另一个映射器,如果可以,如何传递?我当前的代码是:

$HADOOP_HOME/bin/hadoop jar /opt/cloudera/parcels/CDH-5.3.2-1.cdh5.3.2.p0.10/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming.jar \
  -reduce myreducer.r \
  -input myinput/ \
  -output myoutputdir \
  -file file1.r \
  -file file2.Rdata

这是行不通的。

我会回答你的问题,然后给出我的建议。

您不能将 reduce 输出直接发送到映射器。它总是映射,然后减少。就像它的工作方式一样。但是,您可以有两个 MapReduce 作业。让 reducer 写入 HDFS,然后启动第二个 map-only 作业,读取第一个作业的输出数据。

一般来说,如果你想在 reduce 之后做一个 map,你几乎总是可以把它们折叠成同一个东西。想一想:如果您要映射化简器的每条输出记录,为什么不直接 运行 化简器末尾的 "map" 代码呢?这比 运行 执行两个 MapReduce 作业要高效得多。如果您真的不想编写一个新的 R 脚本来执行此操作,您可以将其包装在一个 bash 脚本中,这样它们看起来就像一个脚本。