spark中相同镶木地板文件的不同大小
different size of same parquet file in spark
我只是使用 spark 读取镶木地板文件并执行 repartition(1)
shuffle;然后保存回镶木地板文件。有线问题是新文件比原始文件大得多。甚至元数据文件也比原始文件大数百 kb。有没有人注意到这个问题?在一种压缩策略(例如:.gz 格式)下,有什么方法可以使镶木地板文件尽可能小吗?
编辑:
我阅读了其他 post 并了解了这个问题的基本概念。我仍然希望讨论我们应该选择哪种栏目来进行排序工作。我希望找到通用的优化策略来完成这项工作。
我想说我同意 post 中链接 post 的想法。在我的情况下,排序将是一个不错的选择。具体来说,我测试了不同的列,也测试了单列和复合列。通常,使用包含文件大部分信息的列进行排序是一种有效的策略。欢迎任何评论。
我只是使用 spark 读取镶木地板文件并执行 repartition(1)
shuffle;然后保存回镶木地板文件。有线问题是新文件比原始文件大得多。甚至元数据文件也比原始文件大数百 kb。有没有人注意到这个问题?在一种压缩策略(例如:.gz 格式)下,有什么方法可以使镶木地板文件尽可能小吗?
编辑: 我阅读了其他 post 并了解了这个问题的基本概念。我仍然希望讨论我们应该选择哪种栏目来进行排序工作。我希望找到通用的优化策略来完成这项工作。
我想说我同意 post 中链接 post 的想法。在我的情况下,排序将是一个不错的选择。具体来说,我测试了不同的列,也测试了单列和复合列。通常,使用包含文件大部分信息的列进行排序是一种有效的策略。欢迎任何评论。