在哪些情况下交叉熵优于均方误差?

In which cases is the cross-entropy preferred over the mean squared error?

虽然上述两种方法都提供了更好的分数以实现更好的预测接近度,但仍然首选交叉熵。是在每种情况下还是在某些特殊情况下我们更喜欢交叉熵而不是 MSE?

交叉熵是分类的首选,而均方误差是回归的最佳选择之一。这直接来自问题本身的陈述——在分类中,你使用非常特定的一组可能的输出值,因此 MSE 定义错误(因为它没有这种知识,因此以不兼容的方式惩罚错误)。为了更好地理解现象,最好遵循并理解

之间的关系
  1. 交叉熵
  2. 逻辑回归(二元交叉熵)
  3. 线性回归 (MSE)

您会注意到,两者都可以看作是最大似然估计,只是对因变量的假设不同。

当你从概率和分布的角度推导成本函数时,你可以观察到当你假设误差服从正态分布时会出现 MSE,而当你假设二项分布时会出现交叉熵。这意味着当你使用 MSE 时,你在做回归(估计),而当你使用 CE 时,你在做分类。希望能有所帮助。

比如你做逻辑回归,你会用sigmoid函数来估计de概率,交叉熵作为损失函数,用梯度下降来最小化。这样做但使用 MSE 作为损失函数可能会导致非凸问题,您可能会在其中找到局部最小值。使用交叉熵会导致一个凸问题,您可能会在其中找到最佳解决方案。

https://www.youtube.com/watch?v=rtD0RvfBJqQ&list=PL0Smm0jPm9WcCsYvbhPCdizqNKps69W4Z&index=35

这里还有一个有趣的分析: https://jamesmccaffrey.wordpress.com/2013/11/05/why-you-should-use-cross-entropy-error-instead-of-classification-error-or-mean-squared-error-for-neural-network-classifier-training/