如何使用 pyarrow 流式传输镶木地板?

How do I stream parquet using pyarrow?

我正在尝试逐个读取镶木地板文件的大型数据集,进行一些操作,然后继续进行下一个操作,而不是将它们全部保存在内存中。我需要这样做,因为整个数据集不适合内存。以前我使用 ParquetDataset 并且我知道 RecordBatchStreamReader 但我不确定如何组合它们。

我如何使用 Pyarrow 执行此操作?

Parquet API目前只支持对单个文件的完整读取,所以我们只能限制在单个文件的读取粒度。我们想创建一个从 Parquet 文件读取的 arrow::RecordBatchReader(流数据接口)的实现,请参阅 https://issues.apache.org/jira/browse/ARROW-1012。补丁将受到欢迎。