Memory Error : Training large dataset
Memory Error : Training large dataset
memory error
我的数据集有 70k 个图像,我想通过 Conv2D
训练它们,但是当我尝试加载数据集时它抛出内存错误。我只有 4GB RAM,如何通过在 HDF5
中创建数据集来通过 HDF5
矩阵解决此问题?然后加载它进行训练,我想那时它会占用更少的内存。我尝试了一些教程来创建 HDF5 数据集,但这个过程发生在错误发生的地方。我做错了什么?有不明白的请追问
datagen=ImageDataGenerator(rotation_range=40,
width_shift_range=0.2,
height_shift_range=0.2,
rescale=1./255,
shear_range=0.2,
zoom_range=0.2,
horizontal_flip=True)
batch_size=28
num_classes=37
epochs=100
os.chdir("E:");
path="Dataset/One";
classes=os.listdir(path)
x=[]#Datapoints
y=[]#labels
for fol in classes:
imgfiles=os.listdir(path+u'\'+fol);
for img in imgfiles:
im=Image.open(path+u'\'+fol+u'\'+img);
im=numpy.asarray(im)/255;
x.append(im)
y.append(fol)
x=numpy.array(x)
y=numpy.array(y)
#memory error####################################################
x=x.reshape((-1,100,100,1))
n=x.shape[0]
randomize=numpy.arange(n)
numpy.random.shuffle(randomize)
randomize
x=x[randomize]
y=y[randomize]
您的问题是您试图一次加载所有数据,而且它比您的 RAM 大得多。您只需要加载一个批次并进行处理,然后丢弃该批次并继续。执行此操作的一种自然方法可能是在 for fol in classes
循环内——将每个 fol
值视为一批,并且一次适合一批。
如果您不需要一次访问或处理所有数据,则可以将其加载到 chunks
。
如果它是一个 csv 文件并且您可以使用 pandas
那么也许您可以这样做:
import pandas as pd
for chunk in pd.read_csv('dataset/movies.csv', chunksize=1000):
# use this chunk for processing and/or training
希望对您有所帮助!
memory error
我的数据集有 70k 个图像,我想通过 Conv2D
训练它们,但是当我尝试加载数据集时它抛出内存错误。我只有 4GB RAM,如何通过在 HDF5
中创建数据集来通过 HDF5
矩阵解决此问题?然后加载它进行训练,我想那时它会占用更少的内存。我尝试了一些教程来创建 HDF5 数据集,但这个过程发生在错误发生的地方。我做错了什么?有不明白的请追问
datagen=ImageDataGenerator(rotation_range=40,
width_shift_range=0.2,
height_shift_range=0.2,
rescale=1./255,
shear_range=0.2,
zoom_range=0.2,
horizontal_flip=True)
batch_size=28
num_classes=37
epochs=100
os.chdir("E:");
path="Dataset/One";
classes=os.listdir(path)
x=[]#Datapoints
y=[]#labels
for fol in classes:
imgfiles=os.listdir(path+u'\'+fol);
for img in imgfiles:
im=Image.open(path+u'\'+fol+u'\'+img);
im=numpy.asarray(im)/255;
x.append(im)
y.append(fol)
x=numpy.array(x)
y=numpy.array(y)
#memory error####################################################
x=x.reshape((-1,100,100,1))
n=x.shape[0]
randomize=numpy.arange(n)
numpy.random.shuffle(randomize)
randomize
x=x[randomize]
y=y[randomize]
您的问题是您试图一次加载所有数据,而且它比您的 RAM 大得多。您只需要加载一个批次并进行处理,然后丢弃该批次并继续。执行此操作的一种自然方法可能是在 for fol in classes
循环内——将每个 fol
值视为一批,并且一次适合一批。
如果您不需要一次访问或处理所有数据,则可以将其加载到 chunks
。
如果它是一个 csv 文件并且您可以使用 pandas
那么也许您可以这样做:
import pandas as pd
for chunk in pd.read_csv('dataset/movies.csv', chunksize=1000):
# use this chunk for processing and/or training
希望对您有所帮助!