Keras 的 fit_generator 中 nb_epoch 的目的是什么?
What's the purpose of nb_epoch in Keras's fit_generator?
似乎我可以通过将 num_samples 变大并保持 nb_epoch=1 来获得完全相同的结果。我认为多个 epoch 的目的是多次迭代相同的数据,但 Keras 并没有在每个 epoch 结束时重新实例化生成器。它只是继续前进。例如训练这个自动编码器:
import numpy as np
from keras.layers import (Convolution2D, MaxPooling2D,
UpSampling2D, Activation)
from keras.models import Sequential
rand_imgs = [np.random.rand(1, 100, 100, 3) for _ in range(1000)]
def keras_generator():
i = 0
while True:
print(i)
rand_img = rand_imgs[i]
i += 1
yield (rand_img, rand_img)
layers = ([
Convolution2D(20, 5, 5, border_mode='same',
input_shape=(100, 100, 3), activation='relu'),
MaxPooling2D((2, 2), border_mode='same'),
Convolution2D(3, 5, 5, border_mode='same', activation='relu'),
UpSampling2D((2, 2)),
Convolution2D(3, 5, 5, border_mode='same', activation='relu')])
autoencoder = Sequential()
for layer in layers:
autoencoder.add(layer)
gen = keras_generator()
autoencoder.compile(optimizer='adadelta', loss='binary_crossentropy')
history = autoencoder.fit_generator(gen, samples_per_epoch=100, nb_epoch=2)
似乎我用 (samples_per_epoch=100, nb_epoch=2) 得到的结果和我用 (samples_per_epoch=200, nb_epoch= 1).我是否按预期使用 fit_generator?
是的 - 你是对的,当使用 keras.fit_generator
时,这两种方法是等价的。但是 - 保留 epochs
是合理的原因有多种:
- 日志记录: 在这种情况下
epoch
包含数据量,之后您要记录一些关于训练的重要统计数据(例如最后的时间或损失)时代的)。
- 保持目录结构 当您使用生成器从硬盘加载数据时 - 在这种情况下 - 当您知道目录中有多少文件时 - 您可以调整
batch_size
和 nb_epoch
到这样的值,epoch 将包括遍历数据集中的每个示例。
- 在使用
flow
生成器时保持数据结构 - 在这种情况下,当你有例如一组图片加载到您的 Python
并且您想使用 Keras.ImageDataGenerator
应用不同类型的数据转换,设置 batch_size
和 nb_epoch
数据集中的每个示例都可以帮助您跟踪训练过程的进度。
似乎我可以通过将 num_samples 变大并保持 nb_epoch=1 来获得完全相同的结果。我认为多个 epoch 的目的是多次迭代相同的数据,但 Keras 并没有在每个 epoch 结束时重新实例化生成器。它只是继续前进。例如训练这个自动编码器:
import numpy as np
from keras.layers import (Convolution2D, MaxPooling2D,
UpSampling2D, Activation)
from keras.models import Sequential
rand_imgs = [np.random.rand(1, 100, 100, 3) for _ in range(1000)]
def keras_generator():
i = 0
while True:
print(i)
rand_img = rand_imgs[i]
i += 1
yield (rand_img, rand_img)
layers = ([
Convolution2D(20, 5, 5, border_mode='same',
input_shape=(100, 100, 3), activation='relu'),
MaxPooling2D((2, 2), border_mode='same'),
Convolution2D(3, 5, 5, border_mode='same', activation='relu'),
UpSampling2D((2, 2)),
Convolution2D(3, 5, 5, border_mode='same', activation='relu')])
autoencoder = Sequential()
for layer in layers:
autoencoder.add(layer)
gen = keras_generator()
autoencoder.compile(optimizer='adadelta', loss='binary_crossentropy')
history = autoencoder.fit_generator(gen, samples_per_epoch=100, nb_epoch=2)
似乎我用 (samples_per_epoch=100, nb_epoch=2) 得到的结果和我用 (samples_per_epoch=200, nb_epoch= 1).我是否按预期使用 fit_generator?
是的 - 你是对的,当使用 keras.fit_generator
时,这两种方法是等价的。但是 - 保留 epochs
是合理的原因有多种:
- 日志记录: 在这种情况下
epoch
包含数据量,之后您要记录一些关于训练的重要统计数据(例如最后的时间或损失)时代的)。 - 保持目录结构 当您使用生成器从硬盘加载数据时 - 在这种情况下 - 当您知道目录中有多少文件时 - 您可以调整
batch_size
和nb_epoch
到这样的值,epoch 将包括遍历数据集中的每个示例。 - 在使用
flow
生成器时保持数据结构 - 在这种情况下,当你有例如一组图片加载到您的Python
并且您想使用Keras.ImageDataGenerator
应用不同类型的数据转换,设置batch_size
和nb_epoch
数据集中的每个示例都可以帮助您跟踪训练过程的进度。