sklearn:在 RandomizedSearchCV 中使用管道?
sklearn: use Pipeline in a RandomizedSearchCV?
我希望能够在 sklearn 的 RandomizedSearchCV 构造中使用管道。但是现在我认为只支持估算器。这是我希望能够执行的操作的示例:
import numpy as np
from sklearn.grid_search import RandomizedSearchCV
from sklearn.datasets import load_digits
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
# get some data
iris = load_digits()
X, y = iris.data, iris.target
# specify parameters and distributions to sample from
param_dist = {'C': [1, 10, 100, 1000],
'gamma': [0.001, 0.0001],
'kernel': ['rbf', 'linear'],}
# create pipeline with a scaler
steps = [('scaler', StandardScaler()), ('rbf_svm', SVC())]
pipeline = Pipeline(steps)
# do search
search = RandomizedSearchCV(pipeline,
param_distributions=param_dist, n_iter=50)
search.fit(X, y)
print search.grid_scores_
如果你只是运行这样,你会得到以下错误:
ValueError: Invalid parameter kernel for estimator Pipeline
在 sklearn 中有没有好的方法来做到这一点?
RandomizedSearchCV
,以及GridSearchCV
,do支持管道(事实上,它们独立于它们的实现,管道被设计成等同于通常的分类器)。
问题的关键很简单,如果你认为应该搜索哪些参数。由于管道由许多对象组成(多个转换器 + 一个分类器),因此可能需要为分类器和转换器找到最佳参数。因此,您需要以某种方式区分从哪里获取/设置属性/到哪里。
所以你需要做的是说你想找到一个值,比如说,不仅仅是一些抽象的 gamma
(管道根本没有),而是 gamma
管道的分类器,在您的案例中称为 rbf_svm
(这也证明了名称的必要性)。这可以使用双下划线语法来实现,该语法在 sklearn 中广泛用于嵌套模型:
param_dist = {
'rbf_svm__C': [1, 10, 100, 1000],
'rbf_svm__gamma': [0.001, 0.0001],
'rbf_svm__kernel': ['rbf', 'linear'],
}
我认为 this 是您所需要的(第 3 部分)。
pipeline.get_params().keys()
-> 确保您的参数网格键与此返回的键匹配。
我希望能够在 sklearn 的 RandomizedSearchCV 构造中使用管道。但是现在我认为只支持估算器。这是我希望能够执行的操作的示例:
import numpy as np
from sklearn.grid_search import RandomizedSearchCV
from sklearn.datasets import load_digits
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
# get some data
iris = load_digits()
X, y = iris.data, iris.target
# specify parameters and distributions to sample from
param_dist = {'C': [1, 10, 100, 1000],
'gamma': [0.001, 0.0001],
'kernel': ['rbf', 'linear'],}
# create pipeline with a scaler
steps = [('scaler', StandardScaler()), ('rbf_svm', SVC())]
pipeline = Pipeline(steps)
# do search
search = RandomizedSearchCV(pipeline,
param_distributions=param_dist, n_iter=50)
search.fit(X, y)
print search.grid_scores_
如果你只是运行这样,你会得到以下错误:
ValueError: Invalid parameter kernel for estimator Pipeline
在 sklearn 中有没有好的方法来做到这一点?
RandomizedSearchCV
,以及GridSearchCV
,do支持管道(事实上,它们独立于它们的实现,管道被设计成等同于通常的分类器)。
问题的关键很简单,如果你认为应该搜索哪些参数。由于管道由许多对象组成(多个转换器 + 一个分类器),因此可能需要为分类器和转换器找到最佳参数。因此,您需要以某种方式区分从哪里获取/设置属性/到哪里。
所以你需要做的是说你想找到一个值,比如说,不仅仅是一些抽象的 gamma
(管道根本没有),而是 gamma
管道的分类器,在您的案例中称为 rbf_svm
(这也证明了名称的必要性)。这可以使用双下划线语法来实现,该语法在 sklearn 中广泛用于嵌套模型:
param_dist = {
'rbf_svm__C': [1, 10, 100, 1000],
'rbf_svm__gamma': [0.001, 0.0001],
'rbf_svm__kernel': ['rbf', 'linear'],
}
我认为 this 是您所需要的(第 3 部分)。
pipeline.get_params().keys()
-> 确保您的参数网格键与此返回的键匹配。