是否可以用 pyarrow 编写镶木地板统计信息?
Is it possible to write parquet statistics with pyarrow?
这个选项存在于 Spark 中,我看到 pyarrow 的 write_table()
接受 **kwargs,但是跟进 .pyx
,我无法追踪到 min/max 之类的东西.
是否支持,如果支持,是如何实现的?
默认情况下,pyarrow
已经写入了 Parquet 文件的 min/max 统计信息。在 pyarrow
中没有选项,因为底层 parquet-cpp
库总是写入它们。在撰写本文时,仅写入了最小值和最大值。其他统计数据既不能提供,也不能使用 parquet-cpp
即时计算。当你需要它们时,你应该在 (Py)Arrow's issue tracker 中打开一个问题并考虑为此贡献缺少的代码。
这个选项存在于 Spark 中,我看到 pyarrow 的 write_table()
接受 **kwargs,但是跟进 .pyx
,我无法追踪到 min/max 之类的东西.
是否支持,如果支持,是如何实现的?
pyarrow
已经写入了 Parquet 文件的 min/max 统计信息。在 pyarrow
中没有选项,因为底层 parquet-cpp
库总是写入它们。在撰写本文时,仅写入了最小值和最大值。其他统计数据既不能提供,也不能使用 parquet-cpp
即时计算。当你需要它们时,你应该在 (Py)Arrow's issue tracker 中打开一个问题并考虑为此贡献缺少的代码。