如何在 Spark 中加速 leftouterjoin?

How to accelerate leftouterjoin in Spark?

如何在spark中加速leftouterjoin
我 运行 在 Spark 工作。
leftouterjoin 成为整个作业的瓶颈。
所以需要对spark中的leftouterjoin进行优化。
它是200万条数据集记录之间的leftouterjoin。
计算 leftouterjoin 需要 8 分钟 13

leftOuterJoin at :26
2015/07/28 04:38:16 8.3 min 7/7
152.7 MB 50.5 MB 278.5 MB

你在 RDD 中使用过 partitionBypersist 吗?

为了提高性能,我建议你应该使用partionby并坚持在左边(在左外连接)RDD。

示例代码:

val leftRDD = sc.textFile(//..).partitionBy(numPartitions).persist()

numPartitions :取决于您的集群硬件。内核数(如果你有 4 核机器然后选择 numPartitions = 8)