Spark DataFrame 重新分区和 Parquet 分区

Spark DataFrame Repartition and Parquet Partition

您要问的几件事 - 数据的分区、分桶和平衡，

分区：

在 Spark 中，这是通过 df.write.partitionedBy(column*) 完成的，并通过将 columns 分区到同一子目录来对数据进行分组。

分桶：

在 Spark 中，这是通过 df.write.bucketBy(n, column*) 完成的，并通过将 columns 分区到同一个文件来对数据进行分组。生成的文件数量由 n

控制

重新分区：

在 Spark 中，这是通过 df.repartition(n, column*) 完成的，并通过将 columns 分区到同一个内部分区文件中来对数据进行分组。请注意，没有数据持久存储，这只是基于类似于 bucketBy

的约束的数据内部平衡

Tl;dr

1) 我在列上使用重新分区将数据存储在镶木地板中。但我看到没有。镶木地板分区文件的数量与编号不同。 Rdd分区。难道rdd分区和parquet分区没有关联吗？

repartition 与 bucketBy 相关，而不是 partitionedBy。分区文件由 spark.sql.shuffle.partitions 和 spark.default.parallelism

2) 当我将数据写入 parquet 分区并使用 Rdd 重新分区然后从 parquet 分区读取数据时，是否存在读取期间 rdd 分区号相同的情况 /写?

3) 使用列 ID 对数据帧进行分桶和通过同一列 ID 对数据帧重新分区有何不同？

4) 在考虑 Spark 中连接的性能时，我们是否应该考虑分桶或重新分区（或两者）