标准化对线性回归的影响：机器学习

Question

作为我作业的一部分，我正在处理几个数据集，并使用线性回归找出它们的训练误差。我想知道标准化是否对训练误差有影响？我的相关性和 RMSE 对于标准化前后的数据集来说是相等的。

谢谢，

Answer 1

很容易证明，对于线性回归，是否只是通过缩放变换输入数据并不重要（a；这同样适用于平移，这意味着 [=13] 形式的任何变换=] 对于真正的 a != 0,b 具有相同的属性)。

X' = aX

w = (X^TX)X^Ty
w' = (aX^TaX)^-1 aX^Ty
w' = 1/a w

因此

X^Tw = 1/a aX^T w = aX^T 1/a w = X'^Tw'^T

因此，计算误差的投影在缩放前后完全相同，因此任何类型的损失函数（独立于 x）都会产生完全相同的结果。

但是，如果缩放输出变量，则错误会改变。此外，如果您以更复杂的方式对数据集进行标准化，然后仅乘以一个数字（例如 - 通过白化或几乎任何旋转），那么您的结果将取决于预处理。如果您使用正则化线性回归（岭回归），那么即使按常数缩放输入数据也很重要（因为它会改变正则化参数的 "meaning"）。

Effect of Standardization in Linear Regression: Machine Learning