在 scikit-learn 随机梯度下降分类器中，如何找到影响最大的自变量？

Question

我这样做：

from sklearn.linear_model import SGDClassifier
sgclass = SGDClassifier(random_state=10)
sgclass.fit(X_train,y_train)
pred = sgclass.predict(X_test)
from sklearn.metrics import classification_report,accuracy_score
print(classification_report(y_test, pred))
print(accuracy_score(y_test, pred))

这些是关于模型召回率和精确率的有用报告。

然而如何获取预测因变量的最有影响力的自变量呢？我从大约 12 名候选人开始，想看看他们在模型中的影响力排名。

Answer 1

正如 documentation 指定的那样，您可以使用 coef_ 属性来获取特征权重。特征的绝对值越大，越重要。

您可以在 scikit 的特征选择 class 中看到，SelectFromModel。最佳特征选自具有属性 feature_importances_ 或 coef_.

的任何 classifier

在 scikit-learn 随机梯度下降分类器中，如何找到影响最大的自变量？

In scikit-learn Stochastic Gradient Descent classifier, how to find the most influential independent variables?

gradient-descent

scikit-learn