spark中相同镶木地板文件的不同大小

different size of same parquet file in spark

我只是使用 spark 读取镶木地板文件并执行 repartition(1)shuffle；然后保存回镶木地板文件。有线问题是新文件比原始文件大得多。甚至元数据文件也比原始文件大数百 kb。有没有人注意到这个问题？在一种压缩策略（例如：.gz 格式）下，有什么方法可以使镶木地板文件尽可能小吗？

编辑：我阅读了其他 post 并了解了这个问题的基本概念。我仍然希望讨论我们应该选择哪种栏目来进行排序工作。我希望找到通用的优化策略来完成这项工作。

我想说我同意 post 中链接 post 的想法。在我的情况下，排序将是一个不错的选择。具体来说，我测试了不同的列，也测试了单列和复合列。通常，使用包含文件大部分信息的列进行排序是一种有效的策略。欢迎任何评论。