在微分的情况下,MSE 中的术语顺序是否重要?

Does the order of terms in MSE matter in case of differentiation?

均方误差是机器学习中常用的成本函数:

(1/n) * sum(y - pred)**2

基本上减法项的顺序并不重要,因为整个表达式是平方的。

但是如果我们对这个函数进行微分,它就不再是平方的了:

2 * (y - pred)

顺序会对神经网络产生影响吗?

在大多数情况下,颠倒术语 ypred 的顺序会改变结果的 符号。当我们使用结果来计算权重的斜率时 - 它会影响神经网络收敛的方式吗?

嗯,实际上

所以他们是一样的。

(我采用导数 w.r.t。y_i 假设这些是网络输出,但如果你通过 \hat{y}_i 推导,当然同样成立。)