随机梯度下降与小批量大小 1

Stochastic gradient descent Vs Mini-batch size 1

随机梯度下降基本上是批量大小 = 1 并选择随机训练行的小批量训练的名称吗?即它与 'normal' 梯度下降相同,只是提供训练数据的方式有所不同?

让我感到困惑的一件事是,我看到有人说即使使用 SGD,你也可以提供超过 1 个数据点,并且有更大的批次,所以这不会使它成为 'normal' 迷你-批量梯度下降?

On Optimization Terminology

如您所述,一次仅使用一个示例的优化算法有时称为 随机。使用整个训练集的优化算法称为 batch 或确定性梯度方法。

大多数用于深度学习的算法介于两者之间,使用多个但少于所有训练示例。这些传统上被称为 minibatch 或 minibatch stochastic 方法,现在通常简称为 stochastic methods.

希望术语更清楚:

Deeplearningbook by Goodfellow p.275-276