为什么这个 numpy 数组太大而无法加载?
Why is this numpy array too big to load?
我有一个 3.374Gb 的 npz 文件,myfile.npz
。
我可以读入并查看文件名:
a = np.load('myfile.npz')
a.files
给予
['arr_1','arr_0']
我可以阅读 'arr_1' 好的
a1=a['arr_1']
但是,我无法加载 arr_0
,也无法读取其形状:
a1=a['arr_0']
a['arr_0'].shape
以上操作均出现以下错误:
ValueError: array is too big
我有 16Gb RAM,其中 8.370Gb 可用。所以问题似乎与内存无关。我的问题是:
我应该可以读入这个文件吗?
谁能解释这个错误?
我一直在考虑使用 np.memmap
来解决这个问题 - 这是一种合理的方法吗?
我应该使用什么调试方法?
编辑:
我可以访问具有更多 RAM (48GB) 的计算机并加载它。 dtype
实际上是 complex128
而 a['arr_0']
的未压缩内存是 5750784000 字节。似乎可能需要 RAM 开销。那个或我预测的可用 RAM 量是错误的(我使用 windows sysinternals RAMmap)。
尺寸为 (200, 1440, 3, 13, 32)
的 np.complex128
数组在未压缩的情况下应该占用大约 5.35GiB,因此如果您确实有 8.3GB 的可用可寻址内存,那么原则上您应该能够加载数组。
但是,根据您在下面评论中的回复,您使用的是 Python 和 numpy 的 32 位版本。在 Windows、a 32 bit process can only address up to 2GB of memory 中(如果二进制文件是使用 IMAGE_FILE_LARGE_ADDRESS_AWARE
标志编译的,则为 4GB;大多数 32 位 Python 发行版不是)。因此,无论您有多少物理内存,您的 Python 进程都被限制为 2GB 地址 space。
您可以安装 64 位版本的 Python、numpy 和您需要的任何其他 Python 库,或者忍受 2GB 的限制并尝试解决它。在后一种情况下,您可能会主要在磁盘上存储超过 2GB 限制的数组(例如使用 np.memmap
),但我建议您选择选项 #1,因为对内存映射数组的操作很多在大多数情况下比完全驻留在 RAM 中的正常 np.array
s 慢。
如果您已经有另一台机器有足够的 RAM 将整个数组加载到核心内存中,那么我建议您以不同的格式保存数组(或者作为普通 np.memmap
binary, or perhaps better, in an HDF5 file using PyTables or H5py)。也可以(虽然有点棘手)从 .npz
文件中提取问题数组而不将其加载到 RAM 中,这样您就可以将其作为驻留在磁盘上的 np.memmap
数组打开:
import numpy as np
# some random sparse (compressible) data
x = np.random.RandomState(0).binomial(1, 0.25, (1000, 1000))
# save it as a compressed .npz file
np.savez_compressed('x_compressed.npz', x=x)
# now load it as a numpy.lib.npyio.NpzFile object
obj = np.load('x_compressed.npz')
# contains a list of the stored arrays in the format '<name>.npy'
namelist = obj.zip.namelist()
# extract 'x.npy' into the current directory
obj.zip.extract(namelist[0])
# now we can open the array as a memmap
x_memmap = np.load(namelist[0], mmap_mode='r+')
# check that x and x_memmap are identical
assert np.all(x == x_memmap[:])
我有一个 3.374Gb 的 npz 文件,myfile.npz
。
我可以读入并查看文件名:
a = np.load('myfile.npz')
a.files
给予
['arr_1','arr_0']
我可以阅读 'arr_1' 好的
a1=a['arr_1']
但是,我无法加载 arr_0
,也无法读取其形状:
a1=a['arr_0']
a['arr_0'].shape
以上操作均出现以下错误:
ValueError: array is too big
我有 16Gb RAM,其中 8.370Gb 可用。所以问题似乎与内存无关。我的问题是:
我应该可以读入这个文件吗?
谁能解释这个错误?
我一直在考虑使用
np.memmap
来解决这个问题 - 这是一种合理的方法吗?我应该使用什么调试方法?
编辑:
我可以访问具有更多 RAM (48GB) 的计算机并加载它。 dtype
实际上是 complex128
而 a['arr_0']
的未压缩内存是 5750784000 字节。似乎可能需要 RAM 开销。那个或我预测的可用 RAM 量是错误的(我使用 windows sysinternals RAMmap)。
尺寸为 (200, 1440, 3, 13, 32)
的 np.complex128
数组在未压缩的情况下应该占用大约 5.35GiB,因此如果您确实有 8.3GB 的可用可寻址内存,那么原则上您应该能够加载数组。
但是,根据您在下面评论中的回复,您使用的是 Python 和 numpy 的 32 位版本。在 Windows、a 32 bit process can only address up to 2GB of memory 中(如果二进制文件是使用 IMAGE_FILE_LARGE_ADDRESS_AWARE
标志编译的,则为 4GB;大多数 32 位 Python 发行版不是)。因此,无论您有多少物理内存,您的 Python 进程都被限制为 2GB 地址 space。
您可以安装 64 位版本的 Python、numpy 和您需要的任何其他 Python 库,或者忍受 2GB 的限制并尝试解决它。在后一种情况下,您可能会主要在磁盘上存储超过 2GB 限制的数组(例如使用 np.memmap
),但我建议您选择选项 #1,因为对内存映射数组的操作很多在大多数情况下比完全驻留在 RAM 中的正常 np.array
s 慢。
如果您已经有另一台机器有足够的 RAM 将整个数组加载到核心内存中,那么我建议您以不同的格式保存数组(或者作为普通 np.memmap
binary, or perhaps better, in an HDF5 file using PyTables or H5py)。也可以(虽然有点棘手)从 .npz
文件中提取问题数组而不将其加载到 RAM 中,这样您就可以将其作为驻留在磁盘上的 np.memmap
数组打开:
import numpy as np
# some random sparse (compressible) data
x = np.random.RandomState(0).binomial(1, 0.25, (1000, 1000))
# save it as a compressed .npz file
np.savez_compressed('x_compressed.npz', x=x)
# now load it as a numpy.lib.npyio.NpzFile object
obj = np.load('x_compressed.npz')
# contains a list of the stored arrays in the format '<name>.npy'
namelist = obj.zip.namelist()
# extract 'x.npy' into the current directory
obj.zip.extract(namelist[0])
# now we can open the array as a memmap
x_memmap = np.load(namelist[0], mmap_mode='r+')
# check that x and x_memmap are identical
assert np.all(x == x_memmap[:])