当特征系数的符号在 Logistic 回归中发生变化时，如何根据特征系数做出决策/解释结果？

How do I make decision/ interpret results from the feature coefficients when their signs change in Logistic Regression?

我有一个逻辑回归模型。大约有 10 个特征，其中 3 个基本上是高度相关的（我们称它们为 x_5、x_6、x_7）。事实上 x_5 + x_6 = x_7。但它们在商业意义上都很重要。

我对数据进行了对数变换，由于0的个数比较多，所以我也对所有数据都加了1。这意味着：

1) x_5 + x_6 = x_7

2) 我做了 log(1 + x_5)、log(1 + x_6) 和 log(1 + x_7)（以及其他功能）

然后我在不同的情况下拟合逻辑回归，并检查系数。（让我们称它们为 beta_5、beta_6、beta_7 for x_5、x_6、x_7）。这些案例总结如下。（零意味着我省略了变量，即在情况 2 中我省略了 x_7）

有些事情我觉得很困惑。

1) beta_5 和 beta_6 的符号从案例 1 变为案例 2。我理解这是多重共线性问题的原因。但它会影响我的 Logistic 模型的可预测性吗？

2) beta_7 的值从案例 1 到案例 3 下降非常显着。案例 3 是否更好地解释了 x_7 的重要性？

3) 根据这个发现，我应该使用哪种情况？或者我该如何做决定？

感谢您的帮助！

因为你有控制方程 x5+x6 = x7，那么你可以从一开始就放弃其中一个。为了对最终解决方案充满信心，您可以应用 regularization using Lasso 来了解可以删除哪些功能。