pyarrow 和 pandas 集成

pyarrow and pandas integration

我打算:

使用 pyarrow 的数据(新手)。与 pandas.

相比,这个想法是为了获得更好的性能和内存利用率(apache 箭头压缩)

似乎 pyarrow 不支持按键连接两个表/数据集,所以我不得不回退到 pandas。

我不太了解 pyarrow <-> pandas 集成的工作原理。 pandas 会真正依赖 apache 箭头数据结构吗?我可以只使用这些类型。

我感觉 pandas 将从 apache arrow 和双倍大小复制所有数据(根据文档)

pyarrow 本身并不向最终用户提供这些功能,而是作为一个库,DataFrame 库开发人员可以将其用作基础。因此,其目的不是让您作为 DataFrame 用户有一天直接切换到使用 pyarrow,而是像 pandas 这样的库使用 Arrow 作为后端。

pandas 1.2 中引入的新 ArrowStringType(尚未真正发挥作用)或提供使用 pyarrow 作为后端的可能性的 fletcher 库已经发生了这种情况通过 pandasExtensionArray 界面选择 pandas.DataFrame 的列。

免责声明:我是fletcher的主要作者。