最小二乘估计中的满秩假设(线性回归)

Full-Rank Assumption in Least Squares Estimation (Linear Regression)

在普通最小二乘估计中,假设样本矩阵 X(形状 N_samples x N_features)具有 "full column rank".

这显然是必要的,这样线性回归就可以使用 Moore–Penrose 逆函数简化为一个简单的代数方程。请参阅 OLS 维基百科文章的这一部分: https://en.wikipedia.org/wiki/Ordinary_least_squares#Estimation

理论上这意味着如果 X 的所有列(即特征)都是线性独立的,我们可以做出一个假设,使 OLS 易于计算,对吗?

这在实践中意味着什么? 这是否意味着 OLS 不可计算并且会导致这样的输入数据 X 出现错误?还是结果会很糟糕? 是否有任何经典数据集由于该假设不成立而导致线性回归失败?

仅当您要使用逆(或 cholesky 分解、QR 或任何其他(在数学上)等同于计算逆的方法)时才需要满秩假设。如果您使用 Moore-Penrose 逆函数,您仍然可以计算出答案。当违反满秩假设时,不再有唯一答案,即有许多 x 最小化

||A*x-b||

您将使用 Moore-Penrose 计算的那个将是最小范数的 x。 See here, for exampleA