为什么保持较低的模型权重(添加正则化参数)可以使模型更好地适应未见/测试数据?

Why does keeping model weights low (with addition of regularization parameter) allow the model to better fit unseen / test data?

考虑具有成本函数的线性回归模型:

这里我们有 = 模型的权重

我们添加正则化参数以避免数据过拟合。正则化项通过根据模型的权重对模型进行惩罚来阻止使用大权重而支持较小的权重。 问题是:

  1. 为什么 保持模型权重较低(添加正则化参数)会减少方差,即允许模型更好地拟合看不见的/测试数据?

  2. 此外,减少方差如何增加偏差?

如果您查看统计学习要素的第 7 章(点击此处免费在线: https://web.stanford.edu/~hastie/Papers/ESLII.pdf ) 你会在第 223 页看到预期损失 E[(w^Tx - y)^2] 可以分解为 3 个部分。不可约误差项、平方偏差项和方差项。如第 7 章所述,增加有效参数 p 的数量会增加方差并减少偏差。本章还描述了增加正则化强度如何减少参数的有效数量,这被定义为帽子矩阵的轨迹。