MapReduce中是否可以在同一个键下输出多个值?

Is it possible to output multiple values under the same key in MapReduce?

如果我是 运行 一份 MapReduce 工作,我可以拥有:

context.write(key, value1)
context.write(key, value2)
context.write(key, value3) ....

在我的 mapper 函数中?这会像 Java 中的 Map class 一样并覆盖先前存在的值吗?

是的,你可以做到。每次调用 context.write() 时,您都在有效地发出新的 key/value 对,因此每次调用都独立于最后一次调用,因此它与 Map.

并不能真正相提并论

是的,同一个键可以有多个值。 MapReduce中的map函数不像Java中的Map结构。但是,您可以将其视为一个 Multimap,或者像一个散列 table,如果这个类比对您来说更容易的话: 您可以将多个值放入同一个桶中。

请参阅以下 WordCount 程序中的示例*(请参阅第二个映射器,发出两次键 C)。这些键值对将在同一个桶中结束(减少任务):

但是,我有一个问题:出于效率原因,当映射端连接适用时,您通常应该尽量避免这种减少端连接的情况,就像您的情况一样。例如,如果您可以在映射器中发出 (key, [value1,value2,value3,...]),这通常会更快,因为需要传输和连接的数据更少。由于您已经知道这三个值将最终出现在同一个 reducer 中,因此您可以像 reducer 一样处理它们,或者进行某种预处理以帮助 reducer 执行更少的计算(或者您可以使用组合器来这个目的)。在上图中,首先从映射器发出 (C,2) 会更快。

*reduce阶段在图中没有正确描述,但这与问题无关。