GraphX的基于内存的shuffle和Spark Core的shuffle有什么区别

What are the differences between GraphX's memory-based shuffle and Spark Core's shuffle

从论文"GraphX: Graph Processing in a Distributed Dataflow Framework"(Gonzalez et al. 2014)我了解到GraphX修改了Spark shuffle:

Memory-based Shuffle: Spark’s default shuffle implementation materializes the temporary data to disk. We modified the shuffle phase to materialize map outputs in memory and remove this temporary data using a timeout.



这个 "Memory-based shuffle" 是如何工作的,它与 Spark Core 的区别是什么,优缺点是什么:为什么它非常适合 graphx 用例而不适合其他用例火花作业 ?

我无法直接从 GraphX/Spark 来源了解全局,而且我也很难找到那里的信息。


I failed to understand the big picture directly from GraphX/Spark sources


在开发第一个 GraphX 版本时,Spark 使用基于 Hash 的 shuffle,效率相当低。它是 Spark 作业中的主要瓶颈之一,并且对开发替代洗牌策略进行了大量研究。

由于 GraphX 算法是迭代的并且是基于连接的,因此提高洗牌速度是一个明显的途径。
