我如何保留或删除逻辑模型中的预测变量?

How do i retain or remove the predictor variables from the logit model?

  1. 假设我的数据集有 15 个预测变量 variables.while 使用逻辑回归构建模型,如果我想根据模型上的 significance/impact 从模型中删除变量。 是否仅当 p 值小于 0.05 时才需要删除预测变量?或者在从 glm 方程中添加或删除预测变量之前,我是否需要考虑其他参数?因为有人告诉我,最终我应该构建一个预测变量很少的模型,因为在客户处实施模型会很容易。

请在模型摘要下方找到并帮助我了解如何根据 AIC 和 p 值删除变量。

致电:

glm(formula = TARGET ~ duration + cons.price.idx + cons.conf.idx + 
    emp.var.rate + poutcome + contact + job, family = binomial(link = "logit"), 
    data = Training)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.9536  -0.3148  -0.1601  -0.1029   3.5807  

系数:

                      Estimate Std. Error z value Pr(>|z|)    
(Intercept)         -1.331e+02  7.048e+00 -18.886  < 2e-16 ***
duration             8.333e-03  1.782e-04  46.764  < 2e-16 ***
cons.price.idx       1.396e+00  7.582e-02  18.408  < 2e-16 ***
cons.conf.idx        6.505e-02  5.673e-03  11.466  < 2e-16 ***
emp.var.rate        -9.507e-01  3.015e-02 -31.538  < 2e-16 ***
poutcomenonexistent  4.426e-01  8.802e-02   5.029 4.94e-07 ***
poutcomesuccess      2.054e+00  1.263e-01  16.267  < 2e-16 ***
contacttelephone    -9.380e-01  8.402e-02 -11.164  < 2e-16 ***
jobblue-collar      -4.662e-01  8.778e-02  -5.311 1.09e-07 ***
jobentrepreneur     -1.287e-01  1.623e-01  -0.793   0.4279    
jobhousemaid        -2.577e-01  2.018e-01  -1.277   0.2015    
jobmanagement       -2.383e-01  1.176e-01  -2.026   0.0428 *  
jobretired           2.729e-01  1.222e-01   2.234   0.0255 *  
jobself-employed    -2.554e-02  1.562e-01  -0.164   0.8701    
jobservices         -2.343e-01  1.086e-01  -2.156   0.0311 *  
jobstudent           3.178e-01  1.486e-01   2.139   0.0324 *  
jobtechnician       -2.138e-02  8.854e-02  -0.241   0.8092    
jobunemployed       -9.136e-02  1.890e-01  -0.483   0.6288  


---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 14499  on 20592  degrees of freedom
Residual deviance:  8568  on 20575  degrees of freedom
AIC: 8604

我的问题是,我什么时候说 AIC 值好?我根据什么删除变量以保持最少的变量。

Fisher 评分迭代次数:6

您描述的方法被称为逐步逻辑回归,并且由于性能不佳而受到大量批评。建议考虑 AIC or SC. A nice explanation with many examples in SAS is given in http://www2.sas.com/proceedings/sugi26/p222-26.pdf

而不是使用 p 值