有没有办法控制从 spark 数据帧创建的 hdfs 中的零件文件数量?

Is there a way to control number of part files in hdfs created from spark dataframe?

当我在 HDFS 中保存由 sparksql 查询产生的 DataFrame 时,它​​会生成大量的部分文件,每个文件大小为 1.4 KB。有没有办法增加文件的大小,因为每个零件文件包含大约 2 条记录。

df_crimes_dates_formated = spark.sql('SELECT CONCAT( SUBSTR(Dates,1,2), SUBSTR(Dates,7,4)) AS DATES , Primary_Type , COUNT(1) AS COUNT  FROM crimes_data Group By CONCAT( SUBSTR(Dates,1,2), SUBSTR(Dates,7,4)) , Primary_Type ORDER BY CONCAT( SUBSTR(Dates,1,2), SUBSTR(Dates,7,4)) , COUNT(1) DESC' )

df_crimes_dates_formated.write.save('hdfs:///user/maria_dev/crimes/monthly_crimes/') 

您可以根据您的用例使用 来控制 HDFS 中的文件数量。

#to get number of partitions of dataframe, spark creates part files depends on number of partitions in dataframe
>>> df_crimes_dates_formated.rdd.getNumPartitions()

#create 10 part files in HDFS
>>> df_crimes_dates_formated.repartition(10).write.save('hdfs:///user/maria_dev/crimes/monthly_crimes/') 

Caluculating number of partitons dynamically:

您可以想出每个分区的行数,这样
将给出所需的文件大小,然后将其除以数据帧计数以动态决定分区数。

df.count()
#3

#req rows for each partition
rows=1
par=df.count()/rows
partitions=int('1' if par <= 0 else par)

#repartition with partitions value
df.repartition(partitions).rdd.getNumPartitions()
#3

另外:

从 Spark-2.2 开始,如果我们在数据框中有 1 个分区并控制写入文件的行数,请使用 maxRecordsPerFile 选项。

#assuming df_crimes_dates_formated having 1 partition then spark creates each file with 100 records in it.
df_crimes_dates_formated.write.option("maxRecordsPerFile", 100).save("hdfs:///user/maria_dev/crimes/monthly_crimes/")