Tensorflow 中的优化器
Optimizers in Tensorflow
从 Tensorflow 的各种示例(翻译,ptb)来看,您似乎需要在使用 GradientDescentOptimizer 时显式更改学习率。但是,在使用更多 'sophisticated' 技术(如 Adagrad、Adadelta 等)时是否会出现这种情况。此外,当我们从保存的实例继续训练模型时,这些优化器使用的过去值是否保存在模型文件中?
这取决于您使用的优化器。 Vanilla SGD 需要(接受)学习率的个体适应。其他一些人这样做。例如 Adadelta 就没有。 (https://arxiv.org/abs/1212.5701)
所以这不太取决于 Tensorflow,而是取决于您使用的优化器的数学背景。
此外:是的,保存并重新开始训练不会重置学习率,而是在保存的点继续。
从 Tensorflow 的各种示例(翻译,ptb)来看,您似乎需要在使用 GradientDescentOptimizer 时显式更改学习率。但是,在使用更多 'sophisticated' 技术(如 Adagrad、Adadelta 等)时是否会出现这种情况。此外,当我们从保存的实例继续训练模型时,这些优化器使用的过去值是否保存在模型文件中?
这取决于您使用的优化器。 Vanilla SGD 需要(接受)学习率的个体适应。其他一些人这样做。例如 Adadelta 就没有。 (https://arxiv.org/abs/1212.5701)
所以这不太取决于 Tensorflow,而是取决于您使用的优化器的数学背景。
此外:是的,保存并重新开始训练不会重置学习率,而是在保存的点继续。