标准化对线性回归的影响:机器学习
Effect of Standardization in Linear Regression: Machine Learning
作为我作业的一部分,我正在处理几个数据集,并使用线性回归找出它们的训练误差。我想知道标准化是否对训练误差有影响?我的相关性和 RMSE 对于标准化前后的数据集来说是相等的。
谢谢,
很容易证明,对于线性回归,是否只是通过缩放变换输入数据并不重要(a
;这同样适用于平移,这意味着 [=13] 形式的任何变换=] 对于真正的 a != 0,b
具有相同的 属性)。
X' = aX
w = (X^TX)X^Ty
w' = (aX^TaX)^-1 aX^Ty
w' = 1/a w
因此
X^Tw = 1/a aX^T w = aX^T 1/a w = X'^Tw'^T
因此,计算误差的投影在缩放前后完全相同,因此任何类型的损失函数(独立于 x
)都会产生完全相同的结果。
但是,如果缩放输出变量,则错误会改变。此外,如果您以更复杂的方式对数据集进行标准化,然后仅乘以一个数字(例如 - 通过白化或几乎任何旋转),那么您的结果将取决于预处理。如果您使用正则化线性回归(岭回归),那么即使按常数缩放输入数据也很重要(因为它会改变正则化参数的 "meaning")。
作为我作业的一部分,我正在处理几个数据集,并使用线性回归找出它们的训练误差。我想知道标准化是否对训练误差有影响?我的相关性和 RMSE 对于标准化前后的数据集来说是相等的。
谢谢,
很容易证明,对于线性回归,是否只是通过缩放变换输入数据并不重要(a
;这同样适用于平移,这意味着 [=13] 形式的任何变换=] 对于真正的 a != 0,b
具有相同的 属性)。
X' = aX
w = (X^TX)X^Ty
w' = (aX^TaX)^-1 aX^Ty
w' = 1/a w
因此
X^Tw = 1/a aX^T w = aX^T 1/a w = X'^Tw'^T
因此,计算误差的投影在缩放前后完全相同,因此任何类型的损失函数(独立于 x
)都会产生完全相同的结果。
但是,如果缩放输出变量,则错误会改变。此外,如果您以更复杂的方式对数据集进行标准化,然后仅乘以一个数字(例如 - 通过白化或几乎任何旋转),那么您的结果将取决于预处理。如果您使用正则化线性回归(岭回归),那么即使按常数缩放输入数据也很重要(因为它会改变正则化参数的 "meaning")。