使用正态方程法进行多元回归分析中的特征缩放(归一化)?

Feature scaling (normalization) in multiple regression analysis with normal equation method?

我正在对多个特征进行线性回归。我决定使用正规方程法来查找线性模型的系数。如果我们将梯度下降用于具有多个变量的线性回归,我们通常会进行特征缩放以加快梯度下降收敛。现在,我将使用正规方程公式:

我有两个相互矛盾的信息来源。在 1-st 中声明正规方程不需要特征缩放。在另一个中,我可以看到必须完成特征标准化。 资料来源:

http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=MachineLearning&doc=exercises/ex3/ex3.html

http://puriney.github.io/numb/2013/07/06/normal-equations-gradient-descent-and-linear-regression/

在这两篇文章的末尾提供了有关正规方程中特征缩放的信息。

问题是我们需要在正规方程分析之前进行特征缩放吗?

使用正规方程时不需要进行特征缩放。它仅对梯度下降法优化性能有用。斯坦福大学的文章提供了正确的信息。

当然你也可以在这种情况下缩放特征,但它不会给你带来任何好处(并且会花费你一些额外的计算)。

您可能确实不需要扩展您的功能,从理论上讲,您只需一个 "step" 即可获得解决方案。然而,在实践中,情况可能会有所不同。

注意公式中的矩阵求逆。反转矩阵不是很简单的计算操作。事实上,有一种衡量矩阵求逆(以及执行其他计算)难度的方法,称为 condition number:

If the condition number is not too much larger than one (but it can still be a multiple of one), the matrix is well conditioned which means its inverse can be computed with good accuracy. If the condition number is very large, then the matrix is said to be ill-conditioned. Practically, such a matrix is almost singular, and the computation of its inverse, or solution of a linear system of equations is prone to large numerical errors. A matrix that is not invertible has condition number equal to infinity.

P.S。大条件数实际上是减缓梯度下降收敛的相同问题。