为什么这个 numpy 数组太大而无法加载?

Why is this numpy array too big to load?

我有一个 3.374Gb 的 npz 文件,myfile.npz

我可以读入并查看文件名:

a = np.load('myfile.npz')
a.files

给予

['arr_1','arr_0']

我可以阅读 'arr_1' 好的

a1=a['arr_1']

但是,我无法加载 arr_0,也无法读取其形状:

a1=a['arr_0']
a['arr_0'].shape

以上操作均出现以下错误:

ValueError: array is too big

我有 16Gb RAM,其中 8.370Gb 可用。所以问题似乎与内存无关。我的问题是:

  1. 我应该可以读入这个文件吗?

  2. 谁能解释这个错误?

  3. 我一直在考虑使用 np.memmap 来解决这个问题 - 这是一种合理的方法吗?

  4. 我应该使用什么调试方法?

编辑:

我可以访问具有更多 RAM (48GB) 的计算机并加载它。 dtype 实际上是 complex128a['arr_0'] 的未压缩内存是 5750784000 字节。似乎可能需要 RAM 开销。那个或我预测的可用 RAM 量是错误的(我使用 windows sysinternals RAMmap)。

尺寸为 (200, 1440, 3, 13, 32)np.complex128 数组在未压缩的情况下应该占用大约 5.35GiB,因此如果您确实有 8.3GB 的可用可寻址内存,那么原则上您应该能够加载数组。

但是,根据您在下面评论中的回复,您使用的是 Python 和 numpy 的 32 位版本。在 Windows、a 32 bit process can only address up to 2GB of memory 中(如果二进制文件是使用 IMAGE_FILE_LARGE_ADDRESS_AWARE 标志编译的,则为 4GB;大多数 32 位 Python 发行版不是)。因此,无论您有多少物理内存,您的 Python 进程都被限制为 2GB 地址 space。

您可以安装 64 位版本的 Python、numpy 和您需要的任何其他 Python 库,或者忍受 2GB 的限制并尝试解决它。在后一种情况下,您可能会主要在磁盘上存储超过 2GB 限制的数组(例如使用 np.memmap),但我建议您选择选项 #1,因为对内存映射数组的操作很多在大多数情况下比完全驻留在 RAM 中的正常 np.arrays 慢。


如果您已经有另一台机器有足够的 RAM 将整个数组加载到核心内存中,那么我建议您以不同的格式保存数组(或者作为普通 np.memmap binary, or perhaps better, in an HDF5 file using PyTables or H5py)。也可以(虽然有点棘手)从 .npz 文件中提取问题数组而不将其加载到 RAM 中,这样您就可以将其作为驻留在磁盘上的 np.memmap 数组打开:

import numpy as np

# some random sparse (compressible) data
x = np.random.RandomState(0).binomial(1, 0.25, (1000, 1000))

# save it as a compressed .npz file
np.savez_compressed('x_compressed.npz', x=x)

# now load it as a numpy.lib.npyio.NpzFile object
obj = np.load('x_compressed.npz')

# contains a list of the stored arrays in the format '<name>.npy'
namelist = obj.zip.namelist()

# extract 'x.npy' into the current directory
obj.zip.extract(namelist[0])

# now we can open the array as a memmap
x_memmap = np.load(namelist[0], mmap_mode='r+')

# check that x and x_memmap are identical
assert np.all(x == x_memmap[:])