解释 sklearn 中的逻辑回归特征系数值

Interpreting logistic regression feature coefficient values in sklearn

我已将逻辑回归模型拟合到我的数据中。想象一下,我有四个特征:1) 参与者接受了哪种条件,2) 参与者是否有关于所测试现象的任何先验 knowledge/background(post-实验问卷中的二元反应),3) 花费的时间关于实验任务,以及 4) 参与者年龄。我试图预测参与者最终选择选项 A 还是选项 B。我的逻辑回归输出以下特征系数 clf.coef_:

[[-0.68120795 -0.19073737 -2.50511774  0.14956844]]

如果选项 A 是我的肯定 class,这个输出是否意味着特征 3 是二元化最重要的特征 classification 并且与参与者选择选项 A 有负相关(注意:我没有 normalized/re-scaled 我的数据)?我想确保我对系数的理解以及我可以从中提取的信息是正确的,因此我不会在我的分析中做出任何概括或错误假设。

感谢您的帮助!

你走对了。如果一切都非常相似,则更大的 pos/neg 系数意味着更大的效果,所有条件都相同。

但是,如果您的数据未标准化,Marat 是正确的,因为系数的大小并不意味着任何东西(没有上下文)。例如,您可以通过将度量单位更改为更大或更小来获得不同的系数。

我看不出你是否在此处包含了非零截距,但请记住,逻辑回归系数实际上是优势比,你需要将它们转换为概率以获得更直接可解释的东西.

查看此页面以获得很好的解释: https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in-logistic-regression/

逻辑回归 returns 对数几率信息。因此,您必须先使用 np.exp 将对数赔率转换为赔率,然后再采用 odds/(1 + odds).

要转换为概率,请使用列表理解并执行以下操作:

[np.exp(x)/(1 + np.exp(x)) for x in clf.coef_[0]]

此页面在 R 中有一个关于转换我引用的对数赔率的解释: https://sebastiansauer.github.io/convert_logit2prob/