Apache pig - 最好的 Hive 文件格式
Apache pig - Best Hive file formats
有人可以解释一下 hive 的哪些文件格式可以有效地在使用 HCatalog 的 pigScript 中使用。
我想了解哪种配置单元文件格式是有效的,因为目前我们有一个基于日期的分区配置单元 table,并且底层文件是一个顺序文件。
读取 80 天的数据会创建大约 70,000 个非常庞大的映射器。尝试将地图分割大小更改为 2GB,但并没有减少多少。
因此,与其寻找顺序文件,不如寻找其他选项,这将减少映射器的数量。每个数据的数据大小为 9GB。
有什么建议或启发吗?
谢谢。
据我所知,ORC 是最适合 Hive 的文件格式,它具有高压缩率,可以有效地处理大量数据并且读取速度更快。 ORC 存储为列并压缩,这导致更小的磁盘读取。柱状格式也是 Hive 中矢量化优化的理想选择。
有人可以解释一下 hive 的哪些文件格式可以有效地在使用 HCatalog 的 pigScript 中使用。
我想了解哪种配置单元文件格式是有效的,因为目前我们有一个基于日期的分区配置单元 table,并且底层文件是一个顺序文件。 读取 80 天的数据会创建大约 70,000 个非常庞大的映射器。尝试将地图分割大小更改为 2GB,但并没有减少多少。
因此,与其寻找顺序文件,不如寻找其他选项,这将减少映射器的数量。每个数据的数据大小为 9GB。
有什么建议或启发吗?
谢谢。
据我所知,ORC 是最适合 Hive 的文件格式,它具有高压缩率,可以有效地处理大量数据并且读取速度更快。 ORC 存储为列并压缩,这导致更小的磁盘读取。柱状格式也是 Hive 中矢量化优化的理想选择。