是否可以用 pyarrow 编写镶木地板统计信息?

Is it possible to write parquet statistics with pyarrow?

这个选项存在于 Spark 中,我看到 pyarrow 的 write_table() 接受 **kwargs,但是跟进 .pyx,我无法追踪到 min/max 之类的东西.

是否支持,如果支持,是如何实现的?

默认情况下,

pyarrow 已经写入了 Parquet 文件的 min/max 统计信息。在 pyarrow 中没有选项,因为底层 parquet-cpp 库总是写入它们。在撰写本文时,仅写入了最小值和最大值。其他统计数据既不能提供,也不能使用 parquet-cpp 即时计算。当你需要它们时,你应该在 (Py)Arrow's issue tracker 中打开一个问题并考虑为此贡献缺少的代码。