最小二乘估计中的满秩假设(线性回归)
Full-Rank Assumption in Least Squares Estimation (Linear Regression)
在普通最小二乘估计中,假设样本矩阵 X(形状 N_samples x N_features)具有 "full column rank".
这显然是必要的,这样线性回归就可以使用 Moore–Penrose 逆函数简化为一个简单的代数方程。请参阅 OLS 维基百科文章的这一部分:
https://en.wikipedia.org/wiki/Ordinary_least_squares#Estimation
理论上这意味着如果 X 的所有列(即特征)都是线性独立的,我们可以做出一个假设,使 OLS 易于计算,对吗?
这在实践中意味着什么?
这是否意味着 OLS 不可计算并且会导致这样的输入数据 X 出现错误?还是结果会很糟糕?
是否有任何经典数据集由于该假设不成立而导致线性回归失败?
仅当您要使用逆(或 cholesky 分解、QR 或任何其他(在数学上)等同于计算逆的方法)时才需要满秩假设。如果您使用 Moore-Penrose 逆函数,您仍然可以计算出答案。当违反满秩假设时,不再有唯一答案,即有许多 x 最小化
||A*x-b||
您将使用 Moore-Penrose 计算的那个将是最小范数的 x。 See here, for exampleA
在普通最小二乘估计中,假设样本矩阵 X(形状 N_samples x N_features)具有 "full column rank".
这显然是必要的,这样线性回归就可以使用 Moore–Penrose 逆函数简化为一个简单的代数方程。请参阅 OLS 维基百科文章的这一部分: https://en.wikipedia.org/wiki/Ordinary_least_squares#Estimation
理论上这意味着如果 X 的所有列(即特征)都是线性独立的,我们可以做出一个假设,使 OLS 易于计算,对吗?
这在实践中意味着什么? 这是否意味着 OLS 不可计算并且会导致这样的输入数据 X 出现错误?还是结果会很糟糕? 是否有任何经典数据集由于该假设不成立而导致线性回归失败?
仅当您要使用逆(或 cholesky 分解、QR 或任何其他(在数学上)等同于计算逆的方法)时才需要满秩假设。如果您使用 Moore-Penrose 逆函数,您仍然可以计算出答案。当违反满秩假设时,不再有唯一答案,即有许多 x 最小化
||A*x-b||
您将使用 Moore-Penrose 计算的那个将是最小范数的 x。 See here, for exampleA