在微分的情况下，MSE 中的术语顺序是否重要？

Does the order of terms in MSE matter in case of differentiation?

均方误差是机器学习中常用的成本函数：

(1/n) * sum(y - pred)**2

基本上减法项的顺序并不重要，因为整个表达式是平方的。

但是如果我们对这个函数进行微分，它就不再是平方的了：

2 * (y - pred)

顺序会对神经网络产生影响吗？

在大多数情况下，颠倒术语 y 和 pred 的顺序会改变结果的符号。当我们使用结果来计算权重的斜率时 - 它会影响神经网络收敛的方式吗？

嗯，实际上

$\frac{d}{dy_i}(y_i-\hat{y}_i)^2=2(y_i-\hat{y}_i)\frac{d}{dy}(y_i-\hat{y}_i)=2(y_i-\hat{y}_i)\cdot1=2(y_i-\hat{y}_i)$

和

$\frac{d}{dy_i}(\hat{y}_i-y_i)^2=2(\hat{y}_i-y_i)\frac{d}{dy}(\hat{y}_i-y_i)=2(\hat{y}_i-y_i)\cdot(-1)=2(y_i-\hat{y}_i)$

所以他们是一样的。

（我采用导数 w.r.t。y_i 假设这些是网络输出，但如果你通过 \hat{y}_i 推导，当然同样成立。）