Python - sklearn pipeline SVC f_regression - 获取列名
Python - sklearn pipeline SVC f_regression - get column names
我正在尝试使用此代码段中的列名称:
anova_filter = SelectKBest(f_regression, k=10)
clf = svm.SVC(kernel='linear')
anova_svm = make_pipeline(anova_filter, clf)
f_reg_features = anova_svm.fit(df_train, df_train_y)
我尝试了其他一些建议,例如这个,但我无法让它发挥作用:
提前致谢。
使用 eli5 库(免责声明:我是作者之一)你可以这样做:
# the original example:
from sklearn.feature_selection import SelectKBest, f_regression
from sklearn import svm
from sklearn.datasets import make_classification
from sklearn.pipeline import make_pipeline
import pandas as pd
X, y = make_classification(n_features=5, n_informative=5, n_redundant=0)
df_train = pd.DataFrame(X, columns=['A', 'B', 'C', 'D', 'E'])
df_train_y = pd.DataFrame(y)
anova_filter = SelectKBest(f_regression, k=3)
clf = svm.SVC(kernel='linear')
anova_svm = make_pipeline(anova_filter, clf)
f_reg_features = anova_svm.fit(df_train, df_train_y)
然后:
import eli5
feat_names = eli5.transform_feature_names(anova_filter, list(df.columns))
它的工作方式类似于 Vivek Kumar 的建议;优点是统一 API - 无需为每个转换器记住此类片段。
如果将 SVC(kernel='linear') 替换为 sklearn.linear_model.LinearSVM(这应该也会快得多),您可以这样做:
eli5.show_weights(anova_svm, feature_names=list(df.columns))
并得到这样的 table:
我正在尝试使用此代码段中的列名称:
anova_filter = SelectKBest(f_regression, k=10)
clf = svm.SVC(kernel='linear')
anova_svm = make_pipeline(anova_filter, clf)
f_reg_features = anova_svm.fit(df_train, df_train_y)
我尝试了其他一些建议,例如这个,但我无法让它发挥作用:
提前致谢。
使用 eli5 库(免责声明:我是作者之一)你可以这样做:
# the original example:
from sklearn.feature_selection import SelectKBest, f_regression
from sklearn import svm
from sklearn.datasets import make_classification
from sklearn.pipeline import make_pipeline
import pandas as pd
X, y = make_classification(n_features=5, n_informative=5, n_redundant=0)
df_train = pd.DataFrame(X, columns=['A', 'B', 'C', 'D', 'E'])
df_train_y = pd.DataFrame(y)
anova_filter = SelectKBest(f_regression, k=3)
clf = svm.SVC(kernel='linear')
anova_svm = make_pipeline(anova_filter, clf)
f_reg_features = anova_svm.fit(df_train, df_train_y)
然后:
import eli5
feat_names = eli5.transform_feature_names(anova_filter, list(df.columns))
它的工作方式类似于 Vivek Kumar 的建议;优点是统一 API - 无需为每个转换器记住此类片段。
如果将 SVC(kernel='linear') 替换为 sklearn.linear_model.LinearSVM(这应该也会快得多),您可以这样做:
eli5.show_weights(anova_svm, feature_names=list(df.columns))
并得到这样的 table: