将字典传递给具有 base_estimator 特征的 sklearn 分类器

Passing a dictionary to a sklearn classifier with base_estimator features

我正在尝试将字典传递给 sklearn 分类器以设置其参数,但我还想设置 base_estimator 功能,例如:

>>> from sklearn.ensemble import AdaBoostClassifier
>>> x = {'n_estimators': 200}
>>> clf = AdaBoostClassifier(**x)
>>> clf
AdaBoostClassifier(algorithm='SAMME.R', base_estimator=None,
      learning_rate=1.0, n_estimators=200, random_state=None)

工作正常,但如果我尝试:

>>> x = {'base_estimator__max_depth':5}
>>> clf = AdaBoostClassifier(**x)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: __init__() got an unexpected keyword argument 
'base_estimator__max_depth'

我也尝试过预先设置基本估算器,即 AdaBoostClassifier(base_estimator=DecisionTreeClassifier(),**x) 但这也无法解决与上述相同的错误。

我知道它可以设置为 clf.base_estimator__max_depth = 5 但理想情况下我想解压一个设置分类器多个参数的字典。所以我的问题是,这可能吗?如果可能的话如何?

注意:我知道如何设置这些参数我只是想知道是否可以通过解压字典来完成它,因为这对我来说看起来更好

那是因为 AdaBoostClassifier 的 python 构造函数仅在 __init__() 中定义了以下参数:

base_estimator=None,
n_estimators=50,
learning_rate=1.,
algorithm='SAMME.R',
random_state=None

并且 base_estimator__max_depth 是一个未知参数。

但是,您可以使用 set_params(),它将根据文档正确处理它们:

Set the parameters of this estimator.

The method works on simple estimators as well as on nested objects (such as pipelines). The latter have parameters of the form component__parameter so that it’s possible to update each component of a nested object.

所以你可以这样做:

x = {'base_estimator__max_depth':5}
clf = AdaBoostClassifier(base_estimator=DecisionTreeClassifier())
clf.set_params(**x)

注意:在python 3 中,您还可以执行以下操作(我认为您正在寻找):

x = {'base_estimator':DecisionTreeClassifier(),
     'base_estimator__max_depth':5}
clf = AdaBoostClassifier()
clf.set_params(**x)

目前 python2 以上内容已损坏,将在下一版本中修复。参见 issue here

另一种方法是,您始终可以先将字典设置为 DecisionTreeClassifier,然后将其传递给 AdaBoostClassifier。

像这样:

x = {'max_depth': 5}
base_est = DecisionTreeClassifier(**x)
clf = AdaBoostClassifier(base_estimator = base_est)

你还有别的想法吗?如果是,请 post 完整的代码片段,我们可以找到一个方法。