使用学习率的 SGD 收敛测试

SGD convergence test using learning rates

任何人都可以解释 Hugo Larochelle lecture 在第 8 分钟提出的收敛测试吗？

这些条件保证渐近收敛。在这种情况下，我们应该能够无限次地更新近似解。直觉上，要实现这一点，学习率应该始终大于零。第一个条件意味着或暗示学习率总是大于0。

另一方面，除了"update infinitely"我们的近似解之外，我们还有兴趣更接近最优解。为了实现这一点，学习率应该越来越小。第二个条件意味着alpha参数应该单调递减。

这两个条件不仅在 SGD 中是必需的，在许多其他随机逼近方法中也是如此。由于 Robbins–Monro algorithm.

，有时它们被称为 Robbins-Monro 条件