在批处理中加入 Vs Reduce

Join Vs Reduce In Batch Processing

Join 和 Reduce 在批处理方面的主要区别是什么?

join 将等到所有任务完成(需要合并),但 reduce 不会等待。

然而,与上图描述的连接模式相反,reduce的目标不是等到所有数据都处理完,而是乐观地将所有并行数据项合并在一起成完整集合的单一综合表示。

这与连接模式形成了一个幸运的对比,因为与连接不同,它意味着 reduce 可以并行启动,同时作为 reduce 的一部分仍在进行处理 map/shard阶段。当然,为了产生一个完整的输出,所有的数据 最终必须进行处理,但提前开始的能力意味着批处理计算的整体执行速度更快。