Pyspark 数据框

Pyspark dataframe

pySpark 中,我会在加载数据时更改分区数。

df_sp = spark.read\
             .format('csv')\
             .option("header", "true")\
             .option("mode", "FAILFAST")\
             .option("inferSchema", "true")\
             .option("sep", ",")\
             .load(os.path.join(dirPath, nameFile))

使用 pySpark,是否可以在加载时调整分区数?

是,更改spark.sql.files.maxPartitionBytes。默认为 134217728 (128 MB)。

您可以在代码末尾调用 repartition(number of partitions)。但请确保遵循指南,因为它涉及完全随机播放操作。或者,如果您想减少分区数,可以使用 coalesce.