使用学习率的 SGD 收敛测试

SGD convergence test using learning rates

任何人都可以解释 Hugo Larochelle lecture 在第 8 分钟提出的收敛测试吗?

这些条件保证渐近收敛。在这种情况下,我们应该能够无限次地更新近似解。直觉上,要实现这一点,学习率应该始终大于零。第一个条件意味着或暗示学习率总是大于0。

另一方面,除了"update infinitely"我们的近似解之外,我们还有兴趣更接近最优解。为了实现这一点,学习率应该越来越小。第二个条件意味着alpha参数应该单调递减。

这两个条件不仅在 SGD 中是必需的,在许多其他随机逼近方法中也是如此。由于 Robbins–Monro algorithm.

,有时它们被称为 Robbins-Monro 条件