缩放决策树中的数据改变了我的结果？

Question

我知道缩放数据不会影响决策树，但是当我缩放决策树中的数据时，它会给我带来糟糕的性能（召回率、精确度和准确性差）

但是，当我不缩放所有性能指标时，决策树会给我一个惊人的结果。怎么会这样？

注意：我使用 GridSearchCV，但我不认为交叉验证是我出现问题的原因。这是我的代码：

scaled = MinMaxScaler()

pca = PCA()

bestK = SelectKBest()

combined_transformers = FeatureUnion([ ("scale",scaled),("best", bestK),         
("pca", pca)])

clf = tree.DecisionTreeClassifier(class_weight= "balanced")

pipeline = Pipeline([("features", combined_transformers), ("tree", clf)])

param_grid = dict(features__pca__n_components=[1, 2,3],
      features__best__k=[1, 2,3],
      tree__min_samples_split=[4,5],
      tree__max_depth= [4,5],
     )

grid_search = GridSearchCV(pipeline, param_grid=param_grid,scoring='f1')
grid_search.fit(features,labels)

使用缩放函数 MinMaxScaler() 我的表现是：

f1 =  0.837209302326
recall =  1.0
precision =  0.72
accuracy =  0.948148148148

但没有缩放：

f1 =  0.918918918919
recall =  0.944444444444
precision =  0.894736842105
accuracy =  0.977777777778

Answer 1

我对scikit-learn不熟悉，所以如果我误解了什么，请原谅。

首先，PCA是否对特征进行了标准化？如果没有，它将为缩放和非缩放输入提供不同的结果。

其次，由于样本分割的随机性，CV 可能会在每个运行上给出不同的结果。这将影响结果，尤其是对于小样本量。此外，如果样本量较小，结果可能并没有那么不同。

我有以下建议：

缩放可以被视为一个额外的超参数，可以通过 CV 进行优化。
执行额外的 CV（称为嵌套 CV）或保留以估计性能。这是通过保留一个测试集，在训练数据上使用 CV 选择模型，然后评估其在测试集上的性能来完成的（如果是嵌套 CV，您对所有折叠重复执行此操作并平均性能估计）。当然，您的最终模型应该在整个数据集上进行训练。一般来说，您不应该使用用于模型选择的 CV 的性能估计，因为它会过于乐观。

缩放决策树中的数据改变了我的结果？

Scaling the data in a decision tree changed my results?

machine-learning

scikit-learn

cross-validation

grid-search