火花 |生成过多的零件文件

SPARK | Generating too many part files

我们有一个存储为 Parquet 的 HIVE 目标。 Informatica BDM 作业配置为使用 spark 作为执行引擎将数据加载到 HIVE 目标。

我们注意到在 HDFS 的一个分区内生成了大约 2000 个零件文件。此行为将影响 HIVE 性能。

是否有其他替代方案?

输入文件大小仅为 12MB

块大小为 128MB

此致, 斯里达文卡特桑

根本原因是 spark.sql.shuffle.partitions

你需要设置spark.sql.shuffle.partitions=1 这样它就不会将文件分割成多个分区文件。 这也适用于大文件