Apache Arrow 是否支持单独压缩的块?

Does Apache Arrow support separately-compressed chunks?

在生物信息学中,我们有 bgzip 文件,它是块压缩的,这意味着您可以压缩文件(比方说 CSV),然后如果您想访问中间的一些数据那个文件,你只能解压中间块,而不是整个文件。

explained here 一样,Arrow(以及 Feather v2,文件格式)似乎支持分块读写以及压缩。但是,尚不清楚压缩是否适用于整个文件,或者是否可以解压缩单个块。这是我的问题:我们能否单独压缩 Arrow/Feather v2 的块,然后在不解压所有内容的情况下解压单个块?

压缩应用于每个 RecordBatch 中的单独缓冲区,也就是说,是的,您仍然可以随机访问文件中的每个记录批次。我看到 user docs but it is present in the format 中没有记录,其中为每个 RecordBatch 指定了压缩。