什么是机器学习中的过拟合和噪声?

What are overfitting and noise in machine learning?

谁能解释一下 ML 中的过度拟合和噪声是什么? 这会发生在参数分类器中吗?如何知道模型是否过度拟合数据?

在 ML 中,过度拟合意味着模型在训练数据上表现良好,但不能很好地泛化到新数据。当模型相对于训练数据的数量和噪音过于复杂时,就会发生这种情况。那么,你怎么知道你过度拟合了你的数据呢?构建模型后,您可以根据训练集对其进行测试,并获得出色的结果。但是,当您针对您的测试集或现实生活进行测试时,您的预测准确性将非常低。所以,是时候采取纠正措施了。你可以,

  • 通过减少训练数据中的属性数量来简化模型
  • 收集更多训练数据
  • 减少训练数据中的噪声。

是的,任何参数模型都可能发生过拟合。

过度拟合是指具有预测能力的模型过度拟合训练数据的情况。当引入新的测试数据时,这样的模型会产生非常模糊的结果。在这里,训练误差将非常低,因为模型已经在一个非常适应的位置调整和调整自己以适应训练数据。将自身变为低训练误差现象的情况称为低偏差。类似地,当引入测试数据时,由于上述条件,测试数据中的错误指标会非常高。这样的模型称为高方差模型。

相反,欠拟合是指您的模型在训练数据本身中拟合得非常差的情况,因此被称为高偏差。不能期望这样的模型在测试数据中也能提供良好的准确性。由于在拟合测试数据时误差较大,该模型也可以称为高方差模型。

通常我们期望好的模型总是低 bias/low 方差模型。

有很多方法可以减少过拟合,但其中很多都是针对模型的特性,比如-

· 弹性网法(回归)

· 套索方法(回归)

· 岭法(回归)

· RELU激活函数(神经网络)

· 减少隐藏层数(神经网络)

· 剪枝(决策树回归与分类)

没有明确的减少欠拟合的方法,但理论上,如果您非常仔细地进行过程特征选择,则可以消除欠拟合,因为模型总是会尝试过拟合而不是欠拟合。

如果数据过于模糊,没有做适当的EDA,也会导致under fitting。因此,始终建议在任何机器学习过程之前进行适当的 eda。

是的,它也可能发生在参数分类器上。

你可以通过一些评估指标来检测过拟合-

  • 如果是回归,那么 R Squared、Adj R Squared、RMSE、MAE 等指标将太高。
  • 如果是分类那么准确度、精度等指标会太高。