你如何在 Sklearn 中使用 fit_params 进行 RandomizedSearch 和 VotingClassifier?
How do you use fit_params for RandomizedSearch with VotingClassifier in Sklearn?
您好,我正在尝试使用 fit_params(对于 GradientBoostingClassifier 上的 sample_weight)在 Sklearn 中使用 VotingClassifier 进行随机搜索,因为数据集是不平衡的。有人可以给我建议和可能的代码示例吗?
我当前无法使用的代码如下:
random_search = RandomizedSearchCV(my_votingClassifier, param_distributions=param_dist,
n_iter=n_iter_search, n_jobs=-1, fit_params={'sample_weight':y_np_array})
错误:
TypeError: fit() got an unexpected keyword argument 'sample_weight'
考虑到似乎没有通过 VotingClassifier
传递 sample_weight
参数的直接方法,我遇到了这个 "hack":
覆盖底部分类器的fit
方法。例如,如果您正在使用 DecisionTreeClassifier
,您可以通过传递所需的 sample_weight
参数来覆盖其 fit
方法。
class MyDecisionTreeClassifier(DecisionTreeClassifier):
def fit(self, X , y = None):
return super(DecisionTreeClassifier, self).fit(X,y,sample_weight=y)
现在,在 VotingClassifier
的分类器集合中,您可以使用自己的 MyDecisionTreeClassifier
。
完整的工作示例:
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.grid_search import RandomizedSearchCV
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
y = np.array([1, 1, 1, 2, 2, 2])
class MyDecisionTreeClassifier(DecisionTreeClassifier):
def fit(self, X , y = None):
return super(DecisionTreeClassifier, self).fit(X,y,sample_weight=y)
clf1 = MyDecisionTreeClassifier()
clf2 = RandomForestClassifier()
params = {'dt__max_depth': [5, 10],'dt__max_features':[1,2]}
eclf = VotingClassifier(estimators=[('dt', clf1), ('rf', clf2)], voting='hard')
random_search = RandomizedSearchCV(eclf, param_distributions=params,n_iter=4)
random_search.fit(X, y)
print(random_search.grid_scores_)
print(random_search.best_score_)
您好,我正在尝试使用 fit_params(对于 GradientBoostingClassifier 上的 sample_weight)在 Sklearn 中使用 VotingClassifier 进行随机搜索,因为数据集是不平衡的。有人可以给我建议和可能的代码示例吗?
我当前无法使用的代码如下:
random_search = RandomizedSearchCV(my_votingClassifier, param_distributions=param_dist,
n_iter=n_iter_search, n_jobs=-1, fit_params={'sample_weight':y_np_array})
错误:
TypeError: fit() got an unexpected keyword argument 'sample_weight'
考虑到似乎没有通过 VotingClassifier
传递 sample_weight
参数的直接方法,我遇到了这个 "hack":
覆盖底部分类器的fit
方法。例如,如果您正在使用 DecisionTreeClassifier
,您可以通过传递所需的 sample_weight
参数来覆盖其 fit
方法。
class MyDecisionTreeClassifier(DecisionTreeClassifier):
def fit(self, X , y = None):
return super(DecisionTreeClassifier, self).fit(X,y,sample_weight=y)
现在,在 VotingClassifier
的分类器集合中,您可以使用自己的 MyDecisionTreeClassifier
。
完整的工作示例:
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.grid_search import RandomizedSearchCV
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
y = np.array([1, 1, 1, 2, 2, 2])
class MyDecisionTreeClassifier(DecisionTreeClassifier):
def fit(self, X , y = None):
return super(DecisionTreeClassifier, self).fit(X,y,sample_weight=y)
clf1 = MyDecisionTreeClassifier()
clf2 = RandomForestClassifier()
params = {'dt__max_depth': [5, 10],'dt__max_features':[1,2]}
eclf = VotingClassifier(estimators=[('dt', clf1), ('rf', clf2)], voting='hard')
random_search = RandomizedSearchCV(eclf, param_distributions=params,n_iter=4)
random_search.fit(X, y)
print(random_search.grid_scores_)
print(random_search.best_score_)