如何在 Spark 中加速 leftouterjoin?
How to accelerate leftouterjoin in Spark?
如何在spark中加速leftouterjoin
我 运行 在 Spark 工作。
leftouterjoin 成为整个作业的瓶颈。
所以需要对spark中的leftouterjoin进行优化。
它是200万条数据集记录之间的leftouterjoin。
计算 leftouterjoin 需要 8 分钟
13
leftOuterJoin at :26
2015/07/28 04:38:16 8.3 min
7/7
152.7 MB 50.5 MB 278.5 MB
你在 RDD 中使用过 partitionBy
和 persist
吗?
为了提高性能,我建议你应该使用partionby并坚持在左边(在左外连接)RDD。
示例代码:
val leftRDD = sc.textFile(//..).partitionBy(numPartitions).persist()
numPartitions
:取决于您的集群硬件。内核数(如果你有 4 核机器然后选择 numPartitions
= 8)
如何在spark中加速leftouterjoin
我 运行 在 Spark 工作。
leftouterjoin 成为整个作业的瓶颈。
所以需要对spark中的leftouterjoin进行优化。
它是200万条数据集记录之间的leftouterjoin。
计算 leftouterjoin 需要 8 分钟
13
leftOuterJoin at :26
2015/07/28 04:38:16 8.3 min 7/7
152.7 MB 50.5 MB 278.5 MB
你在 RDD 中使用过 partitionBy
和 persist
吗?
为了提高性能,我建议你应该使用partionby并坚持在左边(在左外连接)RDD。
示例代码:
val leftRDD = sc.textFile(//..).partitionBy(numPartitions).persist()
numPartitions
:取决于您的集群硬件。内核数(如果你有 4 核机器然后选择 numPartitions
= 8)