我应该担心镶木地板文件是 48MB 吗?
Should I be worried about parquet files being 48MB?
我将转换设置为使用 2000 个随机分区,发现输出文件已从 200 个文件(每个约 442MB)变为 2000 个(每个约 48MB)文件。这有什么好担心的吗?
简短回答:不,这可能没问题,可能不会引起问题。
但是,减小文件大小是一种相当便宜的操作,您可以通过在转换结束时使用 .coalesce(200) 来实现。这会将文件折叠在一起而不会导致随机播放。根据数据的一致性,文件大小可能存在一些差异。如果这将成为一个问题,您可以改用 .repartition(200) (这将需要洗牌,增加您的工作的计算成本)
我将转换设置为使用 2000 个随机分区,发现输出文件已从 200 个文件(每个约 442MB)变为 2000 个(每个约 48MB)文件。这有什么好担心的吗?
简短回答:不,这可能没问题,可能不会引起问题。
但是,减小文件大小是一种相当便宜的操作,您可以通过在转换结束时使用 .coalesce(200) 来实现。这会将文件折叠在一起而不会导致随机播放。根据数据的一致性,文件大小可能存在一些差异。如果这将成为一个问题,您可以改用 .repartition(200) (这将需要洗牌,增加您的工作的计算成本)