网格搜索 SVM-anova 的超参数并在 Sklearn 中获取所选特征
Grid searching hyper-parameters of SVM-anova and get the chosen feature in Sklearn
sklearn 的文档中有一个示例 SVM-Anova。我想进一步为超参数做 GridSearchCV
,为 SVM 做 i.d,C 和 gamma,对于示例中使用的每个百分位特征,如下所示:
transform = feature_selection.SelectPercentile(feature_selection.f_classif)
clf = Pipeline([('anova', transform),
('normal',preprocessing.StandardScaler()),
('svc', svm.SVC())])
parameters = {
'svc__gamma': (1e-3, 1e-4),
'svc__C': (1, 10, 100, 1000)
}
percentiles = (1, 3, 6, 10, 15, 20, 30, 40, 60, 80, 100)
for percentile in percentiles:
clf.set_params(anova__percentile=percentile)
search = GridSearchCV(clf, parameters,cv=StratifiedKFold(y,7,shuffle=True, random_state=5), scoring='roc_auc', n_jobs=1)
search.fit(X,y)
它工作正常,通过这样做我可以同时调整 Anova 和 SVM 的参数,并使用这对参数来构建我的最终模型。
但是,我对它的工作原理感到困惑。它是否首先拆分数据并通过管道?如果是这样,如果我想进一步了解那些选定的特征,我该如何确定 Anova 选择的特征?
比如说,我使用一对参数(Anova 的百分位数和 SVM 的 C/gamma)获得了最佳 CV 分数,我如何才能准确找出该设置中保留了哪些特征?因为每个参数设置都是在 CV 下测试的,每个参数都包含具有不同训练数据的折叠,因此不同的特征集将由 Anova 评估。
我可以得出的一种方法是将每个折叠中保留的特征集相交以获得最佳性能的一对参数,但我不知道如何修改代码来做到这一点。
欢迎对方法提出任何建议或疑问。
您可以摆脱百分位数循环,只需将百分位数放在参数网格中即可。
然后可以看search.best_estimator_
的选择特征,即search.best_estimator_.named_steps['anova'].get_support()
sklearn 的文档中有一个示例 SVM-Anova。我想进一步为超参数做 GridSearchCV
,为 SVM 做 i.d,C 和 gamma,对于示例中使用的每个百分位特征,如下所示:
transform = feature_selection.SelectPercentile(feature_selection.f_classif)
clf = Pipeline([('anova', transform),
('normal',preprocessing.StandardScaler()),
('svc', svm.SVC())])
parameters = {
'svc__gamma': (1e-3, 1e-4),
'svc__C': (1, 10, 100, 1000)
}
percentiles = (1, 3, 6, 10, 15, 20, 30, 40, 60, 80, 100)
for percentile in percentiles:
clf.set_params(anova__percentile=percentile)
search = GridSearchCV(clf, parameters,cv=StratifiedKFold(y,7,shuffle=True, random_state=5), scoring='roc_auc', n_jobs=1)
search.fit(X,y)
它工作正常,通过这样做我可以同时调整 Anova 和 SVM 的参数,并使用这对参数来构建我的最终模型。
但是,我对它的工作原理感到困惑。它是否首先拆分数据并通过管道?如果是这样,如果我想进一步了解那些选定的特征,我该如何确定 Anova 选择的特征?
比如说,我使用一对参数(Anova 的百分位数和 SVM 的 C/gamma)获得了最佳 CV 分数,我如何才能准确找出该设置中保留了哪些特征?因为每个参数设置都是在 CV 下测试的,每个参数都包含具有不同训练数据的折叠,因此不同的特征集将由 Anova 评估。
我可以得出的一种方法是将每个折叠中保留的特征集相交以获得最佳性能的一对参数,但我不知道如何修改代码来做到这一点。
欢迎对方法提出任何建议或疑问。
您可以摆脱百分位数循环,只需将百分位数放在参数网格中即可。
然后可以看search.best_estimator_
的选择特征,即search.best_estimator_.named_steps['anova'].get_support()