"spark.sql.shuffle.partitions" 配置是否影响非 sql 洗牌?
Is "spark.sql.shuffle.partitions" configuration affects non sql shuffling?
我们的 Spark 作业中没有很多 SQL(这是我知道的一个问题,但现在它是一个事实)。
我想优化我们的 Spark 随机分区的大小和数量,以优化我们的 Spark 使用。我在很多资源中看到设置 spark.sql.shuffle.partitions
是一个不错的选择。但是如果我们几乎不用spark会有什么影响吗SQL?
确实 spark.sql.shuffle.partitions
对通过 RDD api 定义的作业没有影响。
您要找的配置是spark.default.parallelism
,
根据 the documentation:
Default number of partitions in RDDs returned by transformations like join, reduceByKey, and parallelize when not set by user.
我们的 Spark 作业中没有很多 SQL(这是我知道的一个问题,但现在它是一个事实)。
我想优化我们的 Spark 随机分区的大小和数量,以优化我们的 Spark 使用。我在很多资源中看到设置 spark.sql.shuffle.partitions
是一个不错的选择。但是如果我们几乎不用spark会有什么影响吗SQL?
确实 spark.sql.shuffle.partitions
对通过 RDD api 定义的作业没有影响。
您要找的配置是spark.default.parallelism
,
根据 the documentation:
Default number of partitions in RDDs returned by transformations like join, reduceByKey, and parallelize when not set by user.