如何使用 sklearn 获取无用功能的列表?
How to get a list of useless features using sklearn?
我有一个数据集来构建分类器:
dataset = pd.read_csv(sys.argv[1], decimal=",",delimiter=";", encoding='cp1251')
X=dataset.ix[:, dataset.columns != 'class']
Y=dataset['class']
我只想 select 重要的功能,所以我这样做:
clf=svm.SVC(probability=True, gamma=0.017, C=5, coef0=0.00001, kernel='linear', class_weight='balanced')
model = SelectFromModel(clf, prefit=True)
X_train, X_test, Y_train, Y_test = cross_validation.train_test_split(X, Y, test_size=0.5, random_state=5)
y_pred=clf.fit(X_train, Y_train).predict(X_test)
X_new = model.transform(X)
所以 X_new 的形状为 3000x72,而 X 的形状为 3000x130。我想获得 X_new 中包含和不包含的功能列表。我该怎么做?
X 是一个带有 header 的数据框,但是 X_new 是一个没有任何名称的特征值列表列表,所以我不能像在 [=24] 中那样合并它=].
感谢您的帮助!
clf.coef_
returns 你一个特征权重列表(在fit()
之后申请)。按权重排序,你会发现哪些不是很有用。
您可能还想看看 Feature Selection。它描述了一些更系统地执行此操作的技术和工具。
试试运行这个代码:
import pandas as pd
import numpy as np
dataset = pd.read_csv(sys.argv[1], decimal=",",delimiter=";", encoding='cp1251')
X=dataset.ix[:, dataset.columns != 'class'].values
Y=dataset['class'].values
feature_names = data_churn.columns.tolist()
feature_names.remove('class')
from sklearn.feature_selection import SelectFromModel
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
clf = SVC(probability=True, gamma=0.017, C=5, coef0=0.00001, kernel='linear', class_weight='balanced')
model = SelectFromModel(clf, prefit=True)
X_train, X_test, Y_train, Y_test = train_test_split(X, y, test_size=0.5, random_state=5)
y_pred=clf.fit(X_train, Y_train).predict(X_test)
X_new = model.transform(X)
print pd.DataFrame(np.c_[feature_names, model.get_support(0)],
columns=[ 'feature_name', 'feature_selected'])
'feature_selected' 列显示是否选择了该功能。
我有一个数据集来构建分类器:
dataset = pd.read_csv(sys.argv[1], decimal=",",delimiter=";", encoding='cp1251')
X=dataset.ix[:, dataset.columns != 'class']
Y=dataset['class']
我只想 select 重要的功能,所以我这样做:
clf=svm.SVC(probability=True, gamma=0.017, C=5, coef0=0.00001, kernel='linear', class_weight='balanced')
model = SelectFromModel(clf, prefit=True)
X_train, X_test, Y_train, Y_test = cross_validation.train_test_split(X, Y, test_size=0.5, random_state=5)
y_pred=clf.fit(X_train, Y_train).predict(X_test)
X_new = model.transform(X)
所以 X_new 的形状为 3000x72,而 X 的形状为 3000x130。我想获得 X_new 中包含和不包含的功能列表。我该怎么做?
X 是一个带有 header 的数据框,但是 X_new 是一个没有任何名称的特征值列表列表,所以我不能像在 [=24] 中那样合并它=]. 感谢您的帮助!
clf.coef_
returns 你一个特征权重列表(在fit()
之后申请)。按权重排序,你会发现哪些不是很有用。
您可能还想看看 Feature Selection。它描述了一些更系统地执行此操作的技术和工具。
试试运行这个代码:
import pandas as pd
import numpy as np
dataset = pd.read_csv(sys.argv[1], decimal=",",delimiter=";", encoding='cp1251')
X=dataset.ix[:, dataset.columns != 'class'].values
Y=dataset['class'].values
feature_names = data_churn.columns.tolist()
feature_names.remove('class')
from sklearn.feature_selection import SelectFromModel
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
clf = SVC(probability=True, gamma=0.017, C=5, coef0=0.00001, kernel='linear', class_weight='balanced')
model = SelectFromModel(clf, prefit=True)
X_train, X_test, Y_train, Y_test = train_test_split(X, y, test_size=0.5, random_state=5)
y_pred=clf.fit(X_train, Y_train).predict(X_test)
X_new = model.transform(X)
print pd.DataFrame(np.c_[feature_names, model.get_support(0)],
columns=[ 'feature_name', 'feature_selected'])
'feature_selected' 列显示是否选择了该功能。