H5Py 和存储
H5Py and storage
我正在编写一些代码,需要将一个非常大的 numpy 数组保存到内存中。事实上,numpy 数组太大了,我无法一次将它全部加载到内存中。但我可以分块计算数组。 IE。我的代码看起来像:
for i in np.arange(numberOfChunks):
myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = #... do some calculation
因为我无法一次将 myArray
全部加载到内存中,所以我想一次一个 "chunk" 将它保存到一个文件中。即我想做这样的事情:
for i in np.arange(numberOfChunks):
myArrayChunk = #... do some calculation to obtain chunk
saveToFile(myArrayChunk, indicesInFile=[(i*chunkSize):(i*(chunkSize+1)),:,:], filename)
我知道这可以用 h5py
来完成,但我对如何做有点困惑。我目前的理解是我可以这样做:
import h5py
# Make the file
h5py_file = h5py.File(filename, "a")
# Tell it we are going to store a dataset
myArray = h5py_file.create_dataset("myArray", myArrayDimensions, compression="gzip")
for i in np.arange(numberOfChunks):
myArrayChunk = #... do some calculation to obtain chunk
myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = myArrayChunk
但这就是我有点困惑的地方。我读到如果你像我写 myArray[(i*chunkSize):(i*(chunkSize+1)),:,:]
时那样索引一个 h5py
数据类型,那么 myArray
的这一部分现在已经被读入内存。所以可以肯定的是,在上面的循环结束时,我现在还没有在内存中得到整个 myArray
吗?这如何挽救了我的记忆?
同样,稍后,我想一次一个块地读回我的文件,做进一步的计算。即我想做类似的事情:
import h5py
# Read in the file
h5py_file = h5py.File(filename, "a")
# Read in myArray
myArray = h5py_file['myArray']
for i in np.arange(numberOfChunks):
# Read in chunk
myArrayChunk = myArray[(i*chunkSize):(i*(chunkSize+1)),:,:]
# ... Do some calculation on myArrayChunk
但是到这个循环结束时,整个 myArray
现在都在内存中了吗?我对 myArray[(i*chunkSize):(i*(chunkSize+1)),:,:]
何时在内存中以及何时不在内存中感到有些困惑。请有人解释一下。
你有基本的想法。说 "save to memory" 时要小心。 NumPy 数组保存在内存 (RAM) 中。 HDF5 数据保存在磁盘上(不是 memory/RAM!),然后访问(使用的内存取决于您访问的方式)。在第一步中,您将以块的形式创建数据并将其写入磁盘。在第二步中,您将以块的形式从磁盘访问数据。最后提供了工作示例。
使用h5py
读取数据时,有2种读取数据的方法:
这个 returns 一个 NumPy 数组:
myArrayNP = myArray[:,:,:]
returns 一个像 NumPy 数组一样运行的 h5py 数据集对象:
myArrayDS = myArray
不同点:h5py数据集对象不是一次全部读入内存。然后,您可以根据需要对它们进行切片。从上面继续,这是获取数据子集的有效操作:
myArrayChunkNP = myArrayDS[i*chunkSize):(i+1)*chunkSize),:,:]
我的示例还纠正了块大小增量方程中的 1 个小错误。
你有:
myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = myArrayChunk
你想要:
myArray[(i*chunkSize):(i+1)*chunkSize),:,:] = myArrayChunk
工作示例(写入和读取):
import h5py
import numpy as np
# Make the file
with h5py.File("SO_61173314.h5", "w") as h5w:
numberOfChunks = 3
chunkSize = 4
print( 'WRITING %d chunks with w/ chunkSize=%d ' % (numberOfChunks,chunkSize) )
# Write dataset to disk
h5Array = h5w.create_dataset("myArray", (numberOfChunks*chunkSize,2,2), compression="gzip")
for i in range(numberOfChunks):
h5ArrayChunk = np.random.random(chunkSize*2*2).reshape(chunkSize,2,2)
print (h5ArrayChunk)
h5Array[(i*chunkSize):((i+1)*chunkSize),:,:] = h5ArrayChunk
with h5py.File("SO_61173314.h5", "r") as h5r:
print( '/nREADING %d chunks with w/ chunkSize=%d/n' % (numberOfChunks,chunkSize) )
# Access myArray dataset - Note: This is NOT a NumpPy array
myArray = h5r['myArray']
for i in range(numberOfChunks):
# Read a chunk into memory (as a NumPy array)
myArrayChunk = myArray[(i*chunkSize):((i+1)*chunkSize),:,:]
# ... Do some calculation on myArrayChunk
print (myArrayChunk)
我正在编写一些代码,需要将一个非常大的 numpy 数组保存到内存中。事实上,numpy 数组太大了,我无法一次将它全部加载到内存中。但我可以分块计算数组。 IE。我的代码看起来像:
for i in np.arange(numberOfChunks):
myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = #... do some calculation
因为我无法一次将 myArray
全部加载到内存中,所以我想一次一个 "chunk" 将它保存到一个文件中。即我想做这样的事情:
for i in np.arange(numberOfChunks):
myArrayChunk = #... do some calculation to obtain chunk
saveToFile(myArrayChunk, indicesInFile=[(i*chunkSize):(i*(chunkSize+1)),:,:], filename)
我知道这可以用 h5py
来完成,但我对如何做有点困惑。我目前的理解是我可以这样做:
import h5py
# Make the file
h5py_file = h5py.File(filename, "a")
# Tell it we are going to store a dataset
myArray = h5py_file.create_dataset("myArray", myArrayDimensions, compression="gzip")
for i in np.arange(numberOfChunks):
myArrayChunk = #... do some calculation to obtain chunk
myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = myArrayChunk
但这就是我有点困惑的地方。我读到如果你像我写 myArray[(i*chunkSize):(i*(chunkSize+1)),:,:]
时那样索引一个 h5py
数据类型,那么 myArray
的这一部分现在已经被读入内存。所以可以肯定的是,在上面的循环结束时,我现在还没有在内存中得到整个 myArray
吗?这如何挽救了我的记忆?
同样,稍后,我想一次一个块地读回我的文件,做进一步的计算。即我想做类似的事情:
import h5py
# Read in the file
h5py_file = h5py.File(filename, "a")
# Read in myArray
myArray = h5py_file['myArray']
for i in np.arange(numberOfChunks):
# Read in chunk
myArrayChunk = myArray[(i*chunkSize):(i*(chunkSize+1)),:,:]
# ... Do some calculation on myArrayChunk
但是到这个循环结束时,整个 myArray
现在都在内存中了吗?我对 myArray[(i*chunkSize):(i*(chunkSize+1)),:,:]
何时在内存中以及何时不在内存中感到有些困惑。请有人解释一下。
你有基本的想法。说 "save to memory" 时要小心。 NumPy 数组保存在内存 (RAM) 中。 HDF5 数据保存在磁盘上(不是 memory/RAM!),然后访问(使用的内存取决于您访问的方式)。在第一步中,您将以块的形式创建数据并将其写入磁盘。在第二步中,您将以块的形式从磁盘访问数据。最后提供了工作示例。
使用h5py
读取数据时,有2种读取数据的方法:
这个 returns 一个 NumPy 数组:
myArrayNP = myArray[:,:,:]
returns 一个像 NumPy 数组一样运行的 h5py 数据集对象:
myArrayDS = myArray
不同点:h5py数据集对象不是一次全部读入内存。然后,您可以根据需要对它们进行切片。从上面继续,这是获取数据子集的有效操作:
myArrayChunkNP = myArrayDS[i*chunkSize):(i+1)*chunkSize),:,:]
我的示例还纠正了块大小增量方程中的 1 个小错误。
你有:
myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = myArrayChunk
你想要:
myArray[(i*chunkSize):(i+1)*chunkSize),:,:] = myArrayChunk
工作示例(写入和读取):
import h5py
import numpy as np
# Make the file
with h5py.File("SO_61173314.h5", "w") as h5w:
numberOfChunks = 3
chunkSize = 4
print( 'WRITING %d chunks with w/ chunkSize=%d ' % (numberOfChunks,chunkSize) )
# Write dataset to disk
h5Array = h5w.create_dataset("myArray", (numberOfChunks*chunkSize,2,2), compression="gzip")
for i in range(numberOfChunks):
h5ArrayChunk = np.random.random(chunkSize*2*2).reshape(chunkSize,2,2)
print (h5ArrayChunk)
h5Array[(i*chunkSize):((i+1)*chunkSize),:,:] = h5ArrayChunk
with h5py.File("SO_61173314.h5", "r") as h5r:
print( '/nREADING %d chunks with w/ chunkSize=%d/n' % (numberOfChunks,chunkSize) )
# Access myArray dataset - Note: This is NOT a NumpPy array
myArray = h5r['myArray']
for i in range(numberOfChunks):
# Read a chunk into memory (as a NumPy array)
myArrayChunk = myArray[(i*chunkSize):((i+1)*chunkSize),:,:]
# ... Do some calculation on myArrayChunk
print (myArrayChunk)