由于超出 VM 限制,MapReduce 处理失败

MapReduce Processing failed due to VM limit exceeded

MapReduce 处理因超出 VM 限制而失败。 我们发现的只是数据偏度, MapReduce 因数据偏斜而失败是否有任何合理性?

如果您的数据严重倾斜,那么这意味着一个映射器或缩减器将不得不处理更多数据。这意味着它将需要更多内存和 运行 更长的时间。如果您积极设置集群的节点管理器内存,您可能很容易淹没 VM 或节点。

这是一个普遍的问题,也是一个足够大的问题,人们已经就此发表了论文。