在微分的情况下,MSE 中的术语顺序是否重要?
Does the order of terms in MSE matter in case of differentiation?
均方误差是机器学习中常用的成本函数:
(1/n) * sum(y - pred)**2
基本上减法项的顺序并不重要,因为整个表达式是平方的。
但是如果我们对这个函数进行微分,它就不再是平方的了:
2 * (y - pred)
顺序会对神经网络产生影响吗?
在大多数情况下,颠倒术语 y
和 pred
的顺序会改变结果的 符号。当我们使用结果来计算权重的斜率时 - 它会影响神经网络收敛的方式吗?
嗯,实际上
和
所以他们是一样的。
(我采用导数 w.r.t。y_i
假设这些是网络输出,但如果你通过 \hat{y}_i
推导,当然同样成立。)
均方误差是机器学习中常用的成本函数:
(1/n) * sum(y - pred)**2
基本上减法项的顺序并不重要,因为整个表达式是平方的。
但是如果我们对这个函数进行微分,它就不再是平方的了:
2 * (y - pred)
顺序会对神经网络产生影响吗?
在大多数情况下,颠倒术语 y
和 pred
的顺序会改变结果的 符号。当我们使用结果来计算权重的斜率时 - 它会影响神经网络收敛的方式吗?
嗯,实际上
和
所以他们是一样的。
(我采用导数 w.r.t。y_i
假设这些是网络输出,但如果你通过 \hat{y}_i
推导,当然同样成立。)