Parquet 和数据复制

Parquet and Data Duplication

镶木地板文件使 OLAP 查询更快是因为它是柱状格式,但另一方面,数据湖是重复的(原始数据 + 镶木地板数据)。 即使parquet可以压缩,你不觉得复制所有数据会花费很多吗?

这取决于您的用例。如果您出于各种原因需要数据,例如暂存数据和查询,则可能需要复制。

Parquet 最适合查询,尤其是经常只涉及特定列的 OLAP 查询。同时,写Parquet文件比写其他文件要花更多的时间。

简而言之,如果您的两个数据都是 OLAP 查询的目标,您可能需要考虑只使用 Parquet 版本的文件。

查看此文档供您参考。 http://www.slideshare.net/StampedeCon/choosing-an-hdfs-data-storage-format-avro-vs-parquet-and-more-stampedecon-2015?qid=697d8f63-e6d8-4db1-951d-0f6f3b170ad1&v=default&b=&from_search=2