跳过 fastparquet 中大型二进制字段的元数据

Skip metadata for large binary fields in fastparquet

如果数据集的列包含大量二进制数据(例如图像或声波数据),那么计算 min/max 该列的统计数据在计算和存储需求方面都会变得昂贵,尽管完全没有用(按范围查询这些值显然没有意义)。

这会导致大型、高度分区的镶木地板数据集的元数据数量激增。有没有办法告诉 fastparquet 计算某些列的统计信息,或者 Parquet 格式是否要求这些统计信息存在于 每个 列?

这是在 stale PR 中实现的,可以在某个时候合并(它破坏了与 py2 的兼容性),或者可以提取相关部分。 PR 为作者提供了一个 stats= arg,可用于选择哪些列已计算 max/min,或 all/none 用于 True/False.