当特征系数的符号在 Logistic 回归中发生变化时,如何根据特征系数做出决策/解释结果?

How do I make decision/ interpret results from the feature coefficients when their signs change in Logistic Regression?

我有一个逻辑回归模型。大约有 10 个特征,其中 3 个基本上是高度相关的(我们称它们为 x_5、x_6、x_7)。事实上 x_5 + x_6 = x_7。但它们在商业意义上都很重要。

我对数据进行了对数变换,由于0的个数比较多,所以我也对所有数据都加了1。这意味着:

1) x_5 + x_6 = x_7

2) 我做了 log(1 + x_5)、log(1 + x_6) 和 log(1 + x_7)(以及其他功能)

然后我在不同的情况下拟合逻辑回归,并检查系数。(让我们称它们为 beta_5、beta_6、beta_7 for x_5、x_6、x_7)。这些案例总结如下。 (零意味着我省略了变量,即在情况 2 中我省略了 x_7)

有些事情我觉得很困惑。

1) beta_5 和 beta_6 的符号从案例 1 变为案例 2。我理解这是多重共线性问题的原因。但它会影响我的 Logistic 模型的可预测性吗?

2) beta_7 的值从案例 1 到案例 3 下降非常显着。案例 3 是否更好地解释了 x_7 的重要性?

3) 根据这个发现,我应该使用哪种情况?或者我该如何做决定?

感谢您的帮助!

因为你有控制方程 x5+x6 = x7,那么你可以从一开始就放弃其中一个。 为了对最终解决方案充满信心,您可以应用 regularization using Lasso 来了解可以删除哪些功能。