在 python 中使用 sklearn 自己的估计器进行网格搜索 CV
Grid search CV with sklearn own estimator in python
我正在尝试构建自己的估计量(回归量)并将其用于插补(KnnImputation)。我在使用网格搜索 "GridSearchCV" 时遇到问题。
有什么想法吗?
我的代码:
class KnnImputation(BaseEstimator, RegressorMixin):
def __init__(self, k=5, distance='euclidean'):
self.k = k
self.distance = distance
def get_params(self, deep=False):
return {'k': self.k, 'distance': self.distance}
def set_params(self, **parameters):
self.k = parameters['k']
self.distance = parameters['distance']
def fit(self, X, y):
self.xTrain = X.values
self.yTrain = y.values
return self
def predict(self, X):
........
return yPred
# scorer:
scorer = make_scorer(mean_squared_error)
kf = KFold(n_splits=10, shuffle=False, random_state=23)
NN = KnnImputation()
gridSearchNN = GridSearchCV(NN, param_grid=params, scoring=scorer, n_jobs=1,
cv=kf.split(xTrain, yTrain), verbose=1)
gridSearchNN.fit(X=xTrain, y=yTrain)
我的错误:
....
File "C:\Users\...........\dataImputation.py", line 85, in knnImputationMethod
gridSearchNN.fit(X=xTrain, y=yTrain)
File "C:\Users\.....\Anaconda3\lib\site-packages\sklearn\model_selection\_search.py", line 740, in fit
self.best_estimator_.fit(X, y, **fit_params)
AttributeError: 'NoneType' object has no attribute 'fit'
从sklearn.model_selection._search
中的sklearn
源代码,我们在fit
方法中有以下代码:
if self.refit:
self.best_estimator_ = clone(base_estimator).set_params(
**self.best_params_)
refit_start_time = time.time()
if y is not None:
self.best_estimator_.fit(X, y, **fit_params)
这里重要的是行:
self.best_estimator_ = clone(base_estimator).set_params(**self.best_params_)
克隆是由 base_estimator
对象构成的,它只是您的 KNNImputation
class。然后在该克隆的估计器上调用实例方法 set_params()
。然后变量 self.best_estimator
指向 set_params()
的 return 值。
在您提供的代码中,set_params()
方法没有 return
语句,因此它 return 是 None
。因此,对 self.best_estimator_.fit()
的调用等同于 None.fit()
,这显然是行不通的。您需要通过 returning self
在 set_params()
函数中启用方法链接。
相关代码为:
def set_params(self, **parameters):
self.k = parameters['k']
self.distance = parameters['distance']
return self
TL;DR:
您需要通过 returning self
在 set_params
中启用方法链接。
我正在尝试构建自己的估计量(回归量)并将其用于插补(KnnImputation)。我在使用网格搜索 "GridSearchCV" 时遇到问题。 有什么想法吗?
我的代码:
class KnnImputation(BaseEstimator, RegressorMixin):
def __init__(self, k=5, distance='euclidean'):
self.k = k
self.distance = distance
def get_params(self, deep=False):
return {'k': self.k, 'distance': self.distance}
def set_params(self, **parameters):
self.k = parameters['k']
self.distance = parameters['distance']
def fit(self, X, y):
self.xTrain = X.values
self.yTrain = y.values
return self
def predict(self, X):
........
return yPred
# scorer:
scorer = make_scorer(mean_squared_error)
kf = KFold(n_splits=10, shuffle=False, random_state=23)
NN = KnnImputation()
gridSearchNN = GridSearchCV(NN, param_grid=params, scoring=scorer, n_jobs=1,
cv=kf.split(xTrain, yTrain), verbose=1)
gridSearchNN.fit(X=xTrain, y=yTrain)
我的错误:
....
File "C:\Users\...........\dataImputation.py", line 85, in knnImputationMethod
gridSearchNN.fit(X=xTrain, y=yTrain)
File "C:\Users\.....\Anaconda3\lib\site-packages\sklearn\model_selection\_search.py", line 740, in fit
self.best_estimator_.fit(X, y, **fit_params)
AttributeError: 'NoneType' object has no attribute 'fit'
从sklearn.model_selection._search
中的sklearn
源代码,我们在fit
方法中有以下代码:
if self.refit:
self.best_estimator_ = clone(base_estimator).set_params(
**self.best_params_)
refit_start_time = time.time()
if y is not None:
self.best_estimator_.fit(X, y, **fit_params)
这里重要的是行:
self.best_estimator_ = clone(base_estimator).set_params(**self.best_params_)
克隆是由 base_estimator
对象构成的,它只是您的 KNNImputation
class。然后在该克隆的估计器上调用实例方法 set_params()
。然后变量 self.best_estimator
指向 set_params()
的 return 值。
在您提供的代码中,set_params()
方法没有 return
语句,因此它 return 是 None
。因此,对 self.best_estimator_.fit()
的调用等同于 None.fit()
,这显然是行不通的。您需要通过 returning self
在 set_params()
函数中启用方法链接。
相关代码为:
def set_params(self, **parameters):
self.k = parameters['k']
self.distance = parameters['distance']
return self
TL;DR:
您需要通过 returning self
在 set_params
中启用方法链接。