如何在 Spark 中加速 leftouterjoin？

Question

如何在spark中加速leftouterjoin
我运行在 Spark 工作。
leftouterjoin 成为整个作业的瓶颈。
所以需要对spark中的leftouterjoin进行优化。
它是200万条数据集记录之间的leftouterjoin。
计算 leftouterjoin 需要 8 分钟 13

leftOuterJoin at :26
2015/07/28 04:38:16 8.3 min 7/7
152.7 MB 50.5 MB 278.5 MB

Answer 1

你在 RDD 中使用过 partitionBy 和 persist 吗？

为了提高性能，我建议你应该使用partionby并坚持在左边（在左外连接）RDD。

示例代码：

val leftRDD = sc.textFile(//..).partitionBy(numPartitions).persist()

numPartitions ：取决于您的集群硬件。内核数（如果你有 4 核机器然后选择 numPartitions = 8）

如何在 Spark 中加速 leftouterjoin？

How to accelerate leftouterjoin in Spark?

python

optimization

query-optimization

left-join

apache-spark