如何避免与keras过度拟合？

Question

def build_model():
  model = keras.models.Sequential()

  model.add(keras.layers.Flatten(input_shape=[32,32,3]))
  keras.layers.Dropout(rate=0.2)

  model.add(keras.layers.Dense(500, activation="relu"))
  keras.layers.Dropout(rate=0.2)

  model.add(keras.layers.Dense(300, activation="relu"))
  keras.layers.Dropout(rate=0.2)  

  model.add(keras.layers.Dense(10, activation="softmax"))
  model.compile(loss='sparse_categorical_crossentropy', optimizer=keras.optimizers.SGD(), metrics=['accuracy'])
  return model 

keras_clf = keras.wrappers.scikit_learn.KerasClassifier(build_model)

def exponential_decay_fn(epoch): 
  return 0.05 * 0.1**(epoch / 20)

lr_scheduler = keras.callbacks.LearningRateScheduler(exponential_decay_fn)

history = keras_clf.fit(np.array(X_train_new), np.array(y_train_new), epochs=100,
                      validation_data=(np.array(X_validation), np.array(y_validation)),
                      callbacks=[keras.callbacks.EarlyStopping(patience=10),lr_scheduler])

我使用 'drop out'、'early stopping' 和 'lr scheduler'。结果似乎过度拟合，我试图将隐藏层的 n_neurons 减少到 (300, 100)。结果欠拟合，训练集的准确率只有0.5左右

有什么建议吗？

Answer 1

在处理这些问题时，我首先从一个简单的模型开始，比如只有几个节点不多的密集层。我运行模型并查看由此产生的训练准确性。建模的第一步是获得高训练精度。您可以在每一层中添加更多层和/或更多节点，直到获得令人满意的准确度。一旦实现，就开始评估验证损失。如果在一定数量的 epoch 之后训练损失继续减少但验证损失开始呈上升趋势，那么你就处于过度拟合状态。现在趋势这个词很重要。我无法从你的图表中判断你是否真的过度拟合，但在我看来，验证损失已达到其最小值并且可能在最小值附近振荡。这是正常的，并没有过度拟合。如果你有一个可调节的 lr 回调来监控验证损失，或者一个学习率调度器降低学习可能会让你达到更低的最小损失，但在某些时候（假设你运行足够的时代）不断降低学习率不会'让你得到一个较低的最小损失。该模型已尽力而为。现在，如果您真的过度拟合，您可以采取补救措施。一种是在可能降低训练准确性的情况下增加更多的 dropout。另一种是添加 L1 和/或 L2 正则化。相关文档是 here.。如果你的训练准确率很高但验证准确率很差，这通常意味着你需要更多的训练样本，因为你拥有的样本不能完全代表数据概率分布。训练数据越多越好。我注意到你有 10 类。查看数据集的余额。如果类的样本数量明显不同，这可能会导致问题。有很多方法可以处理该问题，例如在表示 [=16= 下进行过采样]、在表示类上进行欠采样或两者的组合。一个简单的方法是在model.fit中使用class_weight参数。查看您的验证集并确保它没有使用来自不足类的许多样本。始终最好从整个数据集中 select 随机验证集。

如何避免与keras过度拟合？

How to avoid overfitting with keras?

machine-learning

sequential

keras

tensorflow

mlp