在 scikit-learn 随机梯度下降分类器中,如何找到影响最大的自变量?

In scikit-learn Stochastic Gradient Descent classifier, how to find the most influential independent variables?

我这样做:

from sklearn.linear_model import SGDClassifier
sgclass = SGDClassifier(random_state=10)
sgclass.fit(X_train,y_train)
pred = sgclass.predict(X_test)
from sklearn.metrics import classification_report,accuracy_score
print(classification_report(y_test, pred))
print(accuracy_score(y_test, pred)) 

这些是关于模型召回率和精确率的有用报告。

然而如何获取预测因变量的最有影响力的自变量呢?我从大约 12 名候选人开始,想看看他们在模型中的影响力排名。

正如 documentation 指定的那样,您可以使用 coef_ 属性来获取特征权重。特征的绝对值越大,越重要。

您可以在 scikit 的特征选择 class 中看到,SelectFromModel。最佳特征选自具有属性 feature_importances_coef_.

的任何 classifier