Tensorflow 模型 selection ?我select选哪个型号?

Tensorflow model selection ? Which model do I select?

我已经用 LSTM 和 LSTM 训练了一个网络,但我发现存在过度拟合并尝试了 LR/batch 大小/优化器的几种组合,但大多数组合给出了相似的图形。

我想知道我可以在 75k 次迭代之前使用模型。 你会认为这个模型过拟合吗?

您建议的技术称为 early stopping,许多人已将其用作对抗过度拟合的方法。您可以做的其他事情是减小网络规模或尝试收集更多数据。

实际上很难说这是否过度拟合 - 因为您在训练中的差异非常大。有可能,但不确定。

选择哪个模型?

通常你会创建一个验证数据集,在其中测试你的网络性能,然后你 select 模型(包括一组超参数)产生最高分。就这样。如果没有额外的验证集,这将很难。

如何过拟合?

有很多技巧,包括:

  • 提前停止(您将再次需要 - 验证集,以测试您的网络何时开始过度拟合)
  • 添加先验
    • 先于权重 - 如 L2 正则化
    • 先于网络结构 - 也许您可以限制网络的大小?
    • 先于数据分发 - 也许您可以通过某种方式扩充您的数据集?喜欢 - 对于图像,您通常可以在不丢失标签的情况下对它们进行一些排序(旋转、平移)。对于一般数据,通常对它们进行噪声处理效果很好
  • 集成 - 平均多个网络(显式或通过 dropout)减少过度拟合
  • 最后但并非最不重要的一点 - 收集更多数据总是有帮助的(因为在极限经验误差收敛于泛化)。