选择套索系数非零的数据帧列

Selecting columns of dataframe where Lasso coefficient is nonzero

我使用 scikit 和 pandas 对数据集进行了 LASSO 回归。我想尝试使 OLS 适合 LASSO 选择的特征。我有类似

lassomodel = LassoCV(alphas = [1, 0.1, 0.001, 0.0005]).fit(X_train, y_train)

lassomodel.coef_ 

并且我想获取具有 LASSO 系数不等于零的所有特征的数据帧或 numpy 数组。

IIUC,您可以在 X_train 上使用布尔索引,其中系数不等于 0

如果 X_train 是一个 numpy 数组,那么你可以:

X_train[:,lassomodel.coef_!=0]

如果 X_train 是一个 pandas 数据框,那么您可以:

X_train.iloc[:,lassomodel.coef_!=0]