Parquet 和数据复制
Parquet and Data Duplication
镶木地板文件使 OLAP 查询更快是因为它是柱状格式,但另一方面,数据湖是重复的(原始数据 + 镶木地板数据)。
即使parquet可以压缩,你不觉得复制所有数据会花费很多吗?
这取决于您的用例。如果您出于各种原因需要数据,例如暂存数据和查询,则可能需要复制。
Parquet 最适合查询,尤其是经常只涉及特定列的 OLAP 查询。同时,写Parquet文件比写其他文件要花更多的时间。
简而言之,如果您的两个数据都是 OLAP 查询的目标,您可能需要考虑只使用 Parquet 版本的文件。
镶木地板文件使 OLAP 查询更快是因为它是柱状格式,但另一方面,数据湖是重复的(原始数据 + 镶木地板数据)。 即使parquet可以压缩,你不觉得复制所有数据会花费很多吗?
这取决于您的用例。如果您出于各种原因需要数据,例如暂存数据和查询,则可能需要复制。
Parquet 最适合查询,尤其是经常只涉及特定列的 OLAP 查询。同时,写Parquet文件比写其他文件要花更多的时间。
简而言之,如果您的两个数据都是 OLAP 查询的目标,您可能需要考虑只使用 Parquet 版本的文件。