Numpy:奇异矩阵

Numpy: Singular Matrix

我正在尝试使用 NumPy 计算 X'X 形式矩阵的逆矩阵,如下所示。

df = pd.read_csv('https://raw.githubusercontent.com/jianghaochu/data/master/x.csv')
X = np.array(df)
X.shape  # returns (92, 18)
np.linalg.det(np.matmul(X.transpose(), X))  # returns 8.029863818629298
np.linalg.matrix_rank(np.matmul(X.transpose(), X))  # returns 17

令我困惑的是 X'X 不是满秩的,但行列式是正的,NumPy 可以成功计算 X'X 的倒数。但是,如果我取另一个由X的列的子集组成的矩阵Y,则行列式变为零并且无法计算逆。

Y = X[:, [0, 12, 13, 14, 15, 16, 17]]
Y.shape  # returns (92, 7)
np.linalg.det(np.matmul(Y.transpose(), Y))  # returns 0.0
np.linalg.matrix_rank(np.matmul(Y.transpose(), Y))  # returns 16
np.linalg.inv(np.matmul(Y.transpose(), Y))  # numpy.linalg.LinAlgError: Singular matrix

numpy.linalg.LinAlgError: Singular matrix

在我看来,Y 的列是线性相关的。因此,Y'Y 是奇异的,其行列式为零。向 Y 添加更多列(如在 X 中)不应导致线性独立。因此,我无法理解 NumPy 如何在 Y'Y 为单数的情况下计算 X'X 的倒数。

我正在使用上面的数据计算 OLS 估计量。当我使用 Y 中的列(变量)时,我收到一个奇异错误,我认为这是由于自变量的完全共线性造成的。当我在模型中添加更多独立变量并获得矩阵作为 X 时,我可以使用 NumPy 成功获得估计器。这真的让我感到困惑,因为它表明添加更多自变量可以解决完全共线性,这真的让我大吃一惊。

整个下午和晚上我都在苦苦挣扎,但仍然没有头绪。我也在 R 中尝试过它并得到了相同的结果。我希望有人能指导我一些新的方向。任何建议将不胜感激。

查看此处的讨论:numpy inverts a singular matrix

总结所说的内容:

  • 你得到这样结果的原因是因为 numpy 使用 LU 分解来计算逆。
  • 这样'inverse'不能用来求解线性方程组
  • 这不会发生在 Numpy 1.12.0
  • 你的矩阵condition number真高:np.linalg.cond(X.T@X) = 5.7294895077058016e+17

除此之外,您还可以检查特征值 - 如果矩阵的一个特征值为零,则其对应的特征向量是线性相关的:

lambdas, V = np.linalg.eig(X.T@X)

lambdas[np.isclose(lambdas, 0)]
array([1.89103844e-15])