在 Python 中使用硬盘而不是 RAM

Use hard drive instead of RAM in Python

我想知道是否有一种方法或 Python 包可以让我使用大型数据集而无需将其写入 RAM。

我也在使用 pandas 进行统计功能。

我需要访问整个数据集,因为许多统计函数需要整个数据集才能获得 return 可靠的结果。

我在 LiClipse 上使用 PyDev(带解释器 Python 3.4)和 Windows 10。

您可以选择使用 Sframes, Dask 来支持大型数据集,或者使用 pandas 和 read/iterate 块来最大程度地减少 RAM 使用。 blaze

也值得一看

分块阅读:

chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
process(chunk)

如果您只需要将磁盘虚拟化为大 RAM 内存,您可以在系统上设置交换文件。然后内核将根据需要自动换入和换出页面,使用试探法来确定应该交换哪些页面以及应该保留在磁盘上的页面。