Pyspark 数据框

Question

在 pySpark 中，我会在加载数据时更改分区数。

df_sp = spark.read\
             .format('csv')\
             .option("header", "true")\
             .option("mode", "FAILFAST")\
             .option("inferSchema", "true")\
             .option("sep", ",")\
             .load(os.path.join(dirPath, nameFile))

使用 pySpark，是否可以在加载时调整分区数？

Answer 1

是，更改spark.sql.files.maxPartitionBytes。默认为 134217728 (128 MB)。

Answer 2

您可以在代码末尾调用 repartition(number of partitions)。但请确保遵循指南，因为它涉及完全随机播放操作。或者，如果您想减少分区数，可以使用 coalesce.

Pyspark 数据框

Pyspark dataframe

apache-spark-sql

pyspark