跳过 fastparquet 中大型二进制字段的元数据
Skip metadata for large binary fields in fastparquet
如果数据集的列包含大量二进制数据(例如图像或声波数据),那么计算 min/max 该列的统计数据在计算和存储需求方面都会变得昂贵,尽管完全没有用(按范围查询这些值显然没有意义)。
这会导致大型、高度分区的镶木地板数据集的元数据数量激增。有没有办法告诉 fastparquet 不 计算某些列的统计信息,或者 Parquet 格式是否要求这些统计信息存在于 每个 列?
这是在 stale PR 中实现的,可以在某个时候合并(它破坏了与 py2 的兼容性),或者可以提取相关部分。 PR 为作者提供了一个 stats=
arg,可用于选择哪些列已计算 max/min,或 all/none 用于 True/False.
如果数据集的列包含大量二进制数据(例如图像或声波数据),那么计算 min/max 该列的统计数据在计算和存储需求方面都会变得昂贵,尽管完全没有用(按范围查询这些值显然没有意义)。
这会导致大型、高度分区的镶木地板数据集的元数据数量激增。有没有办法告诉 fastparquet 不 计算某些列的统计信息,或者 Parquet 格式是否要求这些统计信息存在于 每个 列?
这是在 stale PR 中实现的,可以在某个时候合并(它破坏了与 py2 的兼容性),或者可以提取相关部分。 PR 为作者提供了一个 stats=
arg,可用于选择哪些列已计算 max/min,或 all/none 用于 True/False.