最小二乘估计中的满秩假设（线性回归）

Question

在普通最小二乘估计中，假设样本矩阵 X（形状 N_samples x N_features）具有 "full column rank".

这显然是必要的，这样线性回归就可以使用 Moore–Penrose 逆函数简化为一个简单的代数方程。请参阅 OLS 维基百科文章的这一部分： https://en.wikipedia.org/wiki/Ordinary_least_squares#Estimation

理论上这意味着如果 X 的所有列（即特征）都是线性独立的，我们可以做出一个假设，使 OLS 易于计算，对吗？

这在实践中意味着什么？这是否意味着 OLS 不可计算并且会导致这样的输入数据 X 出现错误？还是结果会很糟糕？是否有任何经典数据集由于该假设不成立而导致线性回归失败？

Answer 1

仅当您要使用逆（或 cholesky 分解、QR 或任何其他（在数学上）等同于计算逆的方法）时才需要满秩假设。如果您使用 Moore-Penrose 逆函数，您仍然可以计算出答案。当违反满秩假设时，不再有唯一答案，即有许多 x 最小化

||A*x-b||

您将使用 Moore-Penrose 计算的那个将是最小范数的 x。 See here, for exampleA

Full-Rank Assumption in Least Squares Estimation (Linear Regression)