谓词下推是否可用于压缩的 Parquet 文件?
Is predicate pushdown available for compressed Parquet files?
在 Spark 2.2 中,谓词下推是否可用于压缩的 Parquet 文件(例如 GZIP、Snappy)?
是的,谓词下推适用于所有 Parquet 文件。这里的重要部分是,Parquet 上下文中的压缩意味着数据被压缩,但文件的元数据部分未被压缩,而是始终以普通格式存储。这允许在 Parquet 文件之上工作的任何处理器读取文件中每个块的统计信息,然后只加载它的相关部分。
在 Spark 2.2 中,谓词下推是否可用于压缩的 Parquet 文件(例如 GZIP、Snappy)?
是的,谓词下推适用于所有 Parquet 文件。这里的重要部分是,Parquet 上下文中的压缩意味着数据被压缩,但文件的元数据部分未被压缩,而是始终以普通格式存储。这允许在 Parquet 文件之上工作的任何处理器读取文件中每个块的统计信息,然后只加载它的相关部分。