通过梯度下降的反向传播如何表示每次前向传播后的误差

How backpropagation through gradient descent represents the error after each forward pass

在神经网络多层感知器中，我了解到随机梯度下降 (SGD) 与梯度下降 (GD) 之间的主要区别在于训练时选择多少样本的方式。也就是说，SGD 迭代地选择一个样本执行前向传播，然后反向传播以调整权重，这与 GD 相反，后者仅在前向传播中计算完所有样本后才开始反向传播）。

我的问题是：

当梯度下降（甚至是迷你批次梯度下降）是所选方法时，我们如何表示单个正向通行证中的误差？假设我的网络只有一个输出神经元，那么误差是通过平均每个样本的所有单个误差还是通过对所有误差求和来表示的？
在MLPClassifier scikit learn中，有谁知道这样的错误是如何累积的？平均还是求和？

非常感谢。

我想我可以回答你的第一个问题。是的，单次前向传递的误差被计算为瞬时误差，例如，网络输出与所需响应（标签）之间的差异的范数，如果一个样本被馈送到网络或瞬时的平均值喂养一小批样品获得的误差。

希望对您有所帮助。