如果一个系统的输入依赖于另一个系统的输出,hadoop 会发生什么?

What will happen in hadoop, if input of one system is dependent on output some other system?

如果在一个Hadoop系统中,一个系统的输入依赖于另一个系统的输出,那么就不能实现并行计算。

有什么办法可以解决这个问题吗? 请提供详尽的解决方案或任何资源链接。

问题有点模糊,幸好有通用的答案。

如果您不能在一个 map-reduce 阶段完成所有事情,例如由于依赖关系,您可以在多个阶段完成。

一个简单的例子是:

map-reduce-map-reduce


当然这是有局限性的,如果第2行的所有处理都依赖于第1行的最终处理,那么根本不可能并行处理第1行和第2行。