是否对动量对随机梯度下降的影响进行了彻底的探索?
Is there a thorough exploration of the effect of momentum on Stochastic Gradient Descent?
很多CNN论文在权值更新中使用Stochastic Gradient Descent时momentum=0.9。使用它有一个很好的逻辑,但我正在寻找的是对该参数的影响进行彻底探索。翻阅了很多论文,也有一些感悟,但未能全面探究。此外,它在不同的计算机视觉任务(如分类、分割、检测)中的用处是否有所不同?
这是莱斯利·N·史密斯 (Leslie N. Smith) 关于此主题的一篇很好的评论论文 "A disciplined approach to neural network hyper-parameters: Part 1 -- learning rate, batch size, momentum, and weight decay"
https://arxiv.org/pdf/1803.09820.pdf
很多CNN论文在权值更新中使用Stochastic Gradient Descent时momentum=0.9。使用它有一个很好的逻辑,但我正在寻找的是对该参数的影响进行彻底探索。翻阅了很多论文,也有一些感悟,但未能全面探究。此外,它在不同的计算机视觉任务(如分类、分割、检测)中的用处是否有所不同?
这是莱斯利·N·史密斯 (Leslie N. Smith) 关于此主题的一篇很好的评论论文 "A disciplined approach to neural network hyper-parameters: Part 1 -- learning rate, batch size, momentum, and weight decay" https://arxiv.org/pdf/1803.09820.pdf