我如何保留或删除逻辑模型中的预测变量?
How do i retain or remove the predictor variables from the logit model?
- 假设我的数据集有 15 个预测变量 variables.while 使用逻辑回归构建模型,如果我想根据模型上的 significance/impact 从模型中删除变量。
是否仅当 p 值小于 0.05 时才需要删除预测变量?或者在从 glm 方程中添加或删除预测变量之前,我是否需要考虑其他参数?因为有人告诉我,最终我应该构建一个预测变量很少的模型,因为在客户处实施模型会很容易。
请在模型摘要下方找到并帮助我了解如何根据 AIC 和 p 值删除变量。
致电:
glm(formula = TARGET ~ duration + cons.price.idx + cons.conf.idx +
emp.var.rate + poutcome + contact + job, family = binomial(link = "logit"),
data = Training)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.9536 -0.3148 -0.1601 -0.1029 3.5807
系数:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.331e+02 7.048e+00 -18.886 < 2e-16 ***
duration 8.333e-03 1.782e-04 46.764 < 2e-16 ***
cons.price.idx 1.396e+00 7.582e-02 18.408 < 2e-16 ***
cons.conf.idx 6.505e-02 5.673e-03 11.466 < 2e-16 ***
emp.var.rate -9.507e-01 3.015e-02 -31.538 < 2e-16 ***
poutcomenonexistent 4.426e-01 8.802e-02 5.029 4.94e-07 ***
poutcomesuccess 2.054e+00 1.263e-01 16.267 < 2e-16 ***
contacttelephone -9.380e-01 8.402e-02 -11.164 < 2e-16 ***
jobblue-collar -4.662e-01 8.778e-02 -5.311 1.09e-07 ***
jobentrepreneur -1.287e-01 1.623e-01 -0.793 0.4279
jobhousemaid -2.577e-01 2.018e-01 -1.277 0.2015
jobmanagement -2.383e-01 1.176e-01 -2.026 0.0428 *
jobretired 2.729e-01 1.222e-01 2.234 0.0255 *
jobself-employed -2.554e-02 1.562e-01 -0.164 0.8701
jobservices -2.343e-01 1.086e-01 -2.156 0.0311 *
jobstudent 3.178e-01 1.486e-01 2.139 0.0324 *
jobtechnician -2.138e-02 8.854e-02 -0.241 0.8092
jobunemployed -9.136e-02 1.890e-01 -0.483 0.6288
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 14499 on 20592 degrees of freedom
Residual deviance: 8568 on 20575 degrees of freedom
AIC: 8604
我的问题是,我什么时候说 AIC 值好?我根据什么删除变量以保持最少的变量。
Fisher 评分迭代次数:6
您描述的方法被称为逐步逻辑回归,并且由于性能不佳而受到大量批评。建议考虑 AIC or SC. A nice explanation with many examples in SAS is given in http://www2.sas.com/proceedings/sugi26/p222-26.pdf
而不是使用 p 值
- 假设我的数据集有 15 个预测变量 variables.while 使用逻辑回归构建模型,如果我想根据模型上的 significance/impact 从模型中删除变量。 是否仅当 p 值小于 0.05 时才需要删除预测变量?或者在从 glm 方程中添加或删除预测变量之前,我是否需要考虑其他参数?因为有人告诉我,最终我应该构建一个预测变量很少的模型,因为在客户处实施模型会很容易。
请在模型摘要下方找到并帮助我了解如何根据 AIC 和 p 值删除变量。
致电:
glm(formula = TARGET ~ duration + cons.price.idx + cons.conf.idx +
emp.var.rate + poutcome + contact + job, family = binomial(link = "logit"),
data = Training)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.9536 -0.3148 -0.1601 -0.1029 3.5807
系数:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.331e+02 7.048e+00 -18.886 < 2e-16 ***
duration 8.333e-03 1.782e-04 46.764 < 2e-16 ***
cons.price.idx 1.396e+00 7.582e-02 18.408 < 2e-16 ***
cons.conf.idx 6.505e-02 5.673e-03 11.466 < 2e-16 ***
emp.var.rate -9.507e-01 3.015e-02 -31.538 < 2e-16 ***
poutcomenonexistent 4.426e-01 8.802e-02 5.029 4.94e-07 ***
poutcomesuccess 2.054e+00 1.263e-01 16.267 < 2e-16 ***
contacttelephone -9.380e-01 8.402e-02 -11.164 < 2e-16 ***
jobblue-collar -4.662e-01 8.778e-02 -5.311 1.09e-07 ***
jobentrepreneur -1.287e-01 1.623e-01 -0.793 0.4279
jobhousemaid -2.577e-01 2.018e-01 -1.277 0.2015
jobmanagement -2.383e-01 1.176e-01 -2.026 0.0428 *
jobretired 2.729e-01 1.222e-01 2.234 0.0255 *
jobself-employed -2.554e-02 1.562e-01 -0.164 0.8701
jobservices -2.343e-01 1.086e-01 -2.156 0.0311 *
jobstudent 3.178e-01 1.486e-01 2.139 0.0324 *
jobtechnician -2.138e-02 8.854e-02 -0.241 0.8092
jobunemployed -9.136e-02 1.890e-01 -0.483 0.6288
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 14499 on 20592 degrees of freedom
Residual deviance: 8568 on 20575 degrees of freedom
AIC: 8604
我的问题是,我什么时候说 AIC 值好?我根据什么删除变量以保持最少的变量。
Fisher 评分迭代次数:6
您描述的方法被称为逐步逻辑回归,并且由于性能不佳而受到大量批评。建议考虑 AIC or SC. A nice explanation with many examples in SAS is given in http://www2.sas.com/proceedings/sugi26/p222-26.pdf
而不是使用 p 值