Spark Repartition 创建的分区超过 128 MB

Spark Repartition creates partition more than 128 MB

假设我有一个 1.2 GB 的文件,那么考虑到 128 MB 的块大小,它将创建 10 个分区。现在,如果我将它重新分区(或合并)为 4 个分区,这意味着每个分区肯定会超过 128 MB。在这种情况下,每个分区必须容纳 320 MB 的数据,但块大小为 128 MB。我在这里有点困惑。这怎么可能?我们如何创建大于块大小的分区?

块具有固定大小,是保存在集群或机器上特定位置的物理数据块。分区只是数据的逻辑分区,独立于物理位置。

有关更详尽的解释,请参阅my answer文件是否分成块存储在 HDFS 中?