似然比检验和伪 Rsquared 差异显着(逻辑回归)
Likelihood Ratio Test and pseudo Rsquared differ significantly (Logistic Regression)
我应用 logistic regression
并且我想测试我的整体模型的统计显着性。
现在,pseudo-Rsquared (McFaddon) Rsquared = 1 - L(c)/L(null)
returns 模型解释的方差 - 其中 L(c)
表示最大化来自拟合模型的似然值,L(null)
表示空模型的相应值(无协变量,仅截距)。
似然检验统计量是LR = 2 * (L(c) - L(null))
,服从Chi-squared
分布,可以根据模型的自由度检验显着性。
无论如何,我使用 Chi-squared
来计算一个非常显着的 p-value
, 但是 pseudo Rsquared
大约是 0.021
???
为什么 Rsquared 和总体 p 值相差如此之大?
使用某些测试数据的准确度计算 metrics.accuracy_score(y_test, y_pred)
,我发现测试数据的准确度仅为 55% 左右(训练数据为 60% 左右)。
有人可以帮我解释我的结果吗?
也许存在显着的相关性,但影响仍然很小:由于您正在进行 class化,您可以检查具有此变量的示例(二进制情况下为 =1)是否具有higher/lower 成为 class 1 成员的概率比那些没有该变量(在二进制情况下为 =0)的成员略微 higher/lower:
变量为 1 的示例有 50% 的机会属于 class 1,而变量为 0 的示例有 48% 的机会属于 class 1。
如果存在大量具有该变量的示例,效果可能仍然很显着(p 值),但它很难单独预测正确的 class(解释方差 - r 平方)。
这可能是可以帮助您以图形方式理解另一个问题的参考:https://blog.minitab.com/blog/adventures-in-statistics-2/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p-values
我应用 logistic regression
并且我想测试我的整体模型的统计显着性。
现在,pseudo-Rsquared (McFaddon) Rsquared = 1 - L(c)/L(null)
returns 模型解释的方差 - 其中 L(c)
表示最大化来自拟合模型的似然值,L(null)
表示空模型的相应值(无协变量,仅截距)。
似然检验统计量是LR = 2 * (L(c) - L(null))
,服从Chi-squared
分布,可以根据模型的自由度检验显着性。
无论如何,我使用 Chi-squared
来计算一个非常显着的 p-value
, 但是 pseudo Rsquared
大约是 0.021
???
为什么 Rsquared 和总体 p 值相差如此之大?
使用某些测试数据的准确度计算 metrics.accuracy_score(y_test, y_pred)
,我发现测试数据的准确度仅为 55% 左右(训练数据为 60% 左右)。
有人可以帮我解释我的结果吗?
也许存在显着的相关性,但影响仍然很小:由于您正在进行 class化,您可以检查具有此变量的示例(二进制情况下为 =1)是否具有higher/lower 成为 class 1 成员的概率比那些没有该变量(在二进制情况下为 =0)的成员略微 higher/lower:
变量为 1 的示例有 50% 的机会属于 class 1,而变量为 0 的示例有 48% 的机会属于 class 1。
如果存在大量具有该变量的示例,效果可能仍然很显着(p 值),但它很难单独预测正确的 class(解释方差 - r 平方)。
这可能是可以帮助您以图形方式理解另一个问题的参考:https://blog.minitab.com/blog/adventures-in-statistics-2/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p-values