解释 sklearn 中的逻辑回归特征系数值

Question

我已将逻辑回归模型拟合到我的数据中。想象一下，我有四个特征：1) 参与者接受了哪种条件，2) 参与者是否有关于所测试现象的任何先验 knowledge/background（post-实验问卷中的二元反应），3) 花费的时间关于实验任务，以及 4) 参与者年龄。我试图预测参与者最终选择选项 A 还是选项 B。我的逻辑回归输出以下特征系数 clf.coef_:

[[-0.68120795 -0.19073737 -2.50511774  0.14956844]]

如果选项 A 是我的肯定 class，这个输出是否意味着特征 3 是二元化最重要的特征 classification 并且与参与者选择选项 A 有负相关（注意：我没有 normalized/re-scaled 我的数据）？我想确保我对系数的理解以及我可以从中提取的信息是正确的，因此我不会在我的分析中做出任何概括或错误假设。

感谢您的帮助！

Answer 1

你走对了。如果一切都非常相似，则更大的 pos/neg 系数意味着更大的效果，所有条件都相同。

但是，如果您的数据未标准化，Marat 是正确的，因为系数的大小并不意味着任何东西（没有上下文）。例如，您可以通过将度量单位更改为更大或更小来获得不同的系数。

我看不出你是否在此处包含了非零截距，但请记住，逻辑回归系数实际上是优势比，你需要将它们转换为概率以获得更直接可解释的东西.

查看此页面以获得很好的解释： https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in-logistic-regression/

Answer 2

逻辑回归 returns 对数几率信息。因此，您必须先使用 np.exp 将对数赔率转换为赔率，然后再采用 odds/(1 + odds).

要转换为概率，请使用列表理解并执行以下操作：

[np.exp(x)/(1 + np.exp(x)) for x in clf.coef_[0]]

此页面在 R 中有一个关于转换我引用的对数赔率的解释： https://sebastiansauer.github.io/convert_logit2prob/

解释 sklearn 中的逻辑回归特征系数值

Interpreting logistic regression feature coefficient values in sklearn

python

feature-selection

scikit-learn

logistic-regression

coefficients