multiRNNCell 中哪种正则化使用 L2 正则化或 dropout?
Which kind of regularization use L2 regularization or dropout in multiRNNCell?
我一直在从事与用于时间序列预测的序列到序列自动编码器相关的项目。所以,我在编码器和解码器中使用了 tf.contrib.rnn.MultiRNNCell
。我对使用哪种策略来规范我的 seq2seq 模型感到困惑。我应该在损失中使用 L2 正则化还是在 multiRNNCell 中使用 DropOutWrapper (tf.contrib.rnn.DropoutWrapper
)?或者我可以同时使用这两种策略……L2 用于权重和偏差(投影层)以及 multiRNNCell 中单元格之间的 DropOutWrapper?
提前致谢:)
您可以像通常那样同时使用 dropout 和 L2 正则化。它们是完全不同类型的正则化。但是,我会注意到最近的文献表明批归一化已经取代了对 dropout 的需求,如关于批归一化的原始论文中所述:
https://arxiv.org/abs/1502.03167
From the abstract: "It also acts as a regularizer, in some cases eliminating the need for Dropout."
L2 正则化通常在使用 batchnorm 时应用。没有什么可以阻止您应用所有 3 种形式的正则化,上面的陈述仅表明当 batchnorm 已经在使用时,您可能看不到通过应用 dropout 的改进。
要应用的 L2 正则化量和 dropout 保持概率通常有最优值。这些是您通过反复试验或超参数搜索算法调整的超参数。
我一直在从事与用于时间序列预测的序列到序列自动编码器相关的项目。所以,我在编码器和解码器中使用了 tf.contrib.rnn.MultiRNNCell
。我对使用哪种策略来规范我的 seq2seq 模型感到困惑。我应该在损失中使用 L2 正则化还是在 multiRNNCell 中使用 DropOutWrapper (tf.contrib.rnn.DropoutWrapper
)?或者我可以同时使用这两种策略……L2 用于权重和偏差(投影层)以及 multiRNNCell 中单元格之间的 DropOutWrapper?
提前致谢:)
您可以像通常那样同时使用 dropout 和 L2 正则化。它们是完全不同类型的正则化。但是,我会注意到最近的文献表明批归一化已经取代了对 dropout 的需求,如关于批归一化的原始论文中所述:
https://arxiv.org/abs/1502.03167
From the abstract: "It also acts as a regularizer, in some cases eliminating the need for Dropout."
L2 正则化通常在使用 batchnorm 时应用。没有什么可以阻止您应用所有 3 种形式的正则化,上面的陈述仅表明当 batchnorm 已经在使用时,您可能看不到通过应用 dropout 的改进。
要应用的 L2 正则化量和 dropout 保持概率通常有最优值。这些是您通过反复试验或超参数搜索算法调整的超参数。