pyarrow 和 pandas 集成
pyarrow and pandas integration
我打算:
- 加入
- 分组依据
- 过滤器
使用 pyarrow 的数据(新手)。与 pandas.
相比,这个想法是为了获得更好的性能和内存利用率(apache 箭头压缩)
似乎 pyarrow 不支持按键连接两个表/数据集,所以我不得不回退到 pandas。
我不太了解 pyarrow <-> pandas 集成的工作原理。 pandas 会真正依赖 apache 箭头数据结构吗?我可以只使用这些类型。
- 字符串
- 长
- 十进制
我感觉 pandas 将从 apache arrow 和双倍大小复制所有数据(根据文档)
pyarrow
本身并不向最终用户提供这些功能,而是作为一个库,DataFrame 库开发人员可以将其用作基础。因此,其目的不是让您作为 DataFrame 用户有一天直接切换到使用 pyarrow
,而是像 pandas
这样的库使用 Arrow 作为后端。
pandas
1.2 中引入的新 ArrowStringType(尚未真正发挥作用)或提供使用 pyarrow
作为后端的可能性的 fletcher
库已经发生了这种情况通过 pandas
的 ExtensionArray
界面选择 pandas.DataFrame
的列。
免责声明:我是fletcher
的主要作者。
我打算:
- 加入
- 分组依据
- 过滤器
使用 pyarrow 的数据(新手)。与 pandas.
相比,这个想法是为了获得更好的性能和内存利用率(apache 箭头压缩)似乎 pyarrow 不支持按键连接两个表/数据集,所以我不得不回退到 pandas。
我不太了解 pyarrow <-> pandas 集成的工作原理。 pandas 会真正依赖 apache 箭头数据结构吗?我可以只使用这些类型。
- 字符串
- 长
- 十进制
我感觉 pandas 将从 apache arrow 和双倍大小复制所有数据(根据文档)
pyarrow
本身并不向最终用户提供这些功能,而是作为一个库,DataFrame 库开发人员可以将其用作基础。因此,其目的不是让您作为 DataFrame 用户有一天直接切换到使用 pyarrow
,而是像 pandas
这样的库使用 Arrow 作为后端。
pandas
1.2 中引入的新 ArrowStringType(尚未真正发挥作用)或提供使用 pyarrow
作为后端的可能性的 fletcher
库已经发生了这种情况通过 pandas
的 ExtensionArray
界面选择 pandas.DataFrame
的列。
免责声明:我是fletcher
的主要作者。