如果一个系统的输入依赖于另一个系统的输出,hadoop 会发生什么?
What will happen in hadoop, if input of one system is dependent on output some other system?
如果在一个Hadoop系统中,一个系统的输入依赖于另一个系统的输出,那么就不能实现并行计算。
有什么办法可以解决这个问题吗?
请提供详尽的解决方案或任何资源链接。
问题有点模糊,幸好有通用的答案。
如果您不能在一个 map-reduce 阶段完成所有事情,例如由于依赖关系,您可以在多个阶段完成。
一个简单的例子是:
map-reduce-map-reduce
当然这是有局限性的,如果第2行的所有处理都依赖于第1行的最终处理,那么根本不可能并行处理第1行和第2行。
如果在一个Hadoop系统中,一个系统的输入依赖于另一个系统的输出,那么就不能实现并行计算。
有什么办法可以解决这个问题吗? 请提供详尽的解决方案或任何资源链接。
问题有点模糊,幸好有通用的答案。
如果您不能在一个 map-reduce 阶段完成所有事情,例如由于依赖关系,您可以在多个阶段完成。
一个简单的例子是:
map-reduce-map-reduce
当然这是有局限性的,如果第2行的所有处理都依赖于第1行的最终处理,那么根本不可能并行处理第1行和第2行。