pandas 压缩级别和内存使用
pandas compression level and memory usage
向社区问好
我有一个简单的问题,我自己大概可以回答,但我真的很想听听别人的意见。
我们正在开发一个模型(在 python 中),它使用 feather 和 hdf5 文件的组合来存储结果。我们使用 pandas.
现在,我选择使用未压缩的文件和 blosc:snappy 算法,因为我们更感兴趣的是在 I/O 操作期间保持低内存使用率而不是磁盘 space。
从理论上讲,更高的压缩率意味着更小的文件,但需要 reading/writing 次和内存。
pandas 提供多种压缩算法。所以我的假设是,未压缩的文件更适合内存使用,对所有这些算法都是正确的吗?
如果我只对在 reading/writing 期间保持低内存使用率感兴趣,使用压缩真的有意义吗?
我找不到内存使用和压缩级别的单一比较图表。
谢谢
只有您知道问题的答案,因为这取决于与应用程序中的其他活动相比,您压缩和解压缩数据的频率,以及由于避免颠簸。没有通用基准可以让您深入了解您的问题。
我建议为您的应用程序试验 lz4。
向社区问好
我有一个简单的问题,我自己大概可以回答,但我真的很想听听别人的意见。
我们正在开发一个模型(在 python 中),它使用 feather 和 hdf5 文件的组合来存储结果。我们使用 pandas.
现在,我选择使用未压缩的文件和 blosc:snappy 算法,因为我们更感兴趣的是在 I/O 操作期间保持低内存使用率而不是磁盘 space。
从理论上讲,更高的压缩率意味着更小的文件,但需要 reading/writing 次和内存。
pandas 提供多种压缩算法。所以我的假设是,未压缩的文件更适合内存使用,对所有这些算法都是正确的吗?
如果我只对在 reading/writing 期间保持低内存使用率感兴趣,使用压缩真的有意义吗?
我找不到内存使用和压缩级别的单一比较图表。
谢谢
只有您知道问题的答案,因为这取决于与应用程序中的其他活动相比,您压缩和解压缩数据的频率,以及由于避免颠簸。没有通用基准可以让您深入了解您的问题。
我建议为您的应用程序试验 lz4。