Pyspark 数据框
Pyspark dataframe
在 pySpark 中,我会在加载数据时更改分区数。
df_sp = spark.read\
.format('csv')\
.option("header", "true")\
.option("mode", "FAILFAST")\
.option("inferSchema", "true")\
.option("sep", ",")\
.load(os.path.join(dirPath, nameFile))
使用 pySpark,是否可以在加载时调整分区数?
是,更改spark.sql.files.maxPartitionBytes
。默认为 134217728
(128 MB)。
您可以在代码末尾调用 repartition(number of partitions)
。但请确保遵循指南,因为它涉及完全随机播放操作。或者,如果您想减少分区数,可以使用 coalesce
.
在 pySpark 中,我会在加载数据时更改分区数。
df_sp = spark.read\
.format('csv')\
.option("header", "true")\
.option("mode", "FAILFAST")\
.option("inferSchema", "true")\
.option("sep", ",")\
.load(os.path.join(dirPath, nameFile))
使用 pySpark,是否可以在加载时调整分区数?
是,更改spark.sql.files.maxPartitionBytes
。默认为 134217728
(128 MB)。
您可以在代码末尾调用 repartition(number of partitions)
。但请确保遵循指南,因为它涉及完全随机播放操作。或者,如果您想减少分区数,可以使用 coalesce
.