似然比检验和伪 Rsquared 差异显着(逻辑回归)

Likelihood Ratio Test and pseudo Rsquared differ significantly (Logistic Regression)

我应用 logistic regression 并且我想测试我的整体模型的统计显着性。

现在,pseudo-Rsquared (McFaddon) Rsquared = 1 - L(c)/L(null) returns 模型解释的方差 - 其中 L(c) 表示最大化来自拟合模型的似然值,L(null) 表示空模型的相应值(无协变量,仅截距)。

似然检验统计量LR = 2 * (L(c) - L(null)),服从Chi-squared分布,可以根据模型的自由度检验显着性。

无论如何,我使用 Chi-squared 来计算一个非常显着的 p-value 但是 pseudo Rsquared 大约是 0.021 ???

为什么 Rsquared 和总体 p 值相差如此之大?

使用某些测试数据的准确度计算 metrics.accuracy_score(y_test, y_pred),我发现测试数据的准确度仅为 55% 左右(训练数据为 60% 左右)。

有人可以帮我解释我的结果吗?

也许存在显着的相关性,但影响仍然很小:由于您正在进行 class化,您可以检查具有此变量的示例(二进制情况下为 =1)是否具有higher/lower 成为 class 1 成员的概率比那些没有该变量(在二进制情况下为 =0)的成员略微 higher/lower:

变量为 1 的示例有 50% 的机会属于 class 1,而变量为 0 的示例有 48% 的机会属于 class 1。

如果存在大量具有该变量的示例,效果可能仍然很显着(p 值),但它很难单独预测正确的 class(解释方差 - r 平方)。

这可能是可以帮助您以图形方式理解另一个问题的参考:https://blog.minitab.com/blog/adventures-in-statistics-2/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p-values