当特征系数的符号在 Logistic 回归中发生变化时,如何根据特征系数做出决策/解释结果?
How do I make decision/ interpret results from the feature coefficients when their signs change in Logistic Regression?
我有一个逻辑回归模型。大约有 10 个特征,其中 3 个基本上是高度相关的(我们称它们为 x_5、x_6、x_7)。事实上 x_5 + x_6 = x_7。但它们在商业意义上都很重要。
我对数据进行了对数变换,由于0的个数比较多,所以我也对所有数据都加了1。这意味着:
1) x_5 + x_6 = x_7
2) 我做了 log(1 + x_5)、log(1 + x_6) 和 log(1 + x_7)(以及其他功能)
然后我在不同的情况下拟合逻辑回归,并检查系数。(让我们称它们为 beta_5、beta_6、beta_7 for x_5、x_6、x_7)。这些案例总结如下。 (零意味着我省略了变量,即在情况 2 中我省略了 x_7)
有些事情我觉得很困惑。
1) beta_5 和 beta_6 的符号从案例 1 变为案例 2。我理解这是多重共线性问题的原因。但它会影响我的 Logistic 模型的可预测性吗?
2) beta_7 的值从案例 1 到案例 3 下降非常显着。案例 3 是否更好地解释了 x_7 的重要性?
3) 根据这个发现,我应该使用哪种情况?或者我该如何做决定?
感谢您的帮助!
因为你有控制方程 x5+x6 = x7,那么你可以从一开始就放弃其中一个。
为了对最终解决方案充满信心,您可以应用 regularization using Lasso 来了解可以删除哪些功能。
我有一个逻辑回归模型。大约有 10 个特征,其中 3 个基本上是高度相关的(我们称它们为 x_5、x_6、x_7)。事实上 x_5 + x_6 = x_7。但它们在商业意义上都很重要。
我对数据进行了对数变换,由于0的个数比较多,所以我也对所有数据都加了1。这意味着:
1) x_5 + x_6 = x_7
2) 我做了 log(1 + x_5)、log(1 + x_6) 和 log(1 + x_7)(以及其他功能)
然后我在不同的情况下拟合逻辑回归,并检查系数。(让我们称它们为 beta_5、beta_6、beta_7 for x_5、x_6、x_7)。这些案例总结如下。 (零意味着我省略了变量,即在情况 2 中我省略了 x_7)
有些事情我觉得很困惑。
1) beta_5 和 beta_6 的符号从案例 1 变为案例 2。我理解这是多重共线性问题的原因。但它会影响我的 Logistic 模型的可预测性吗?
2) beta_7 的值从案例 1 到案例 3 下降非常显着。案例 3 是否更好地解释了 x_7 的重要性?
3) 根据这个发现,我应该使用哪种情况?或者我该如何做决定?
感谢您的帮助!
因为你有控制方程 x5+x6 = x7,那么你可以从一开始就放弃其中一个。 为了对最终解决方案充满信心,您可以应用 regularization using Lasso 来了解可以删除哪些功能。