成本复杂性修剪:修剪错误

Cost Complexity Pruning: Pruned error

谁能解释一下这两句话:

在Cost Complexity Pruning中,修剪后的树误差永远不会小于训练数据集上的原始树。

在成本复杂性修剪中,修剪后的树误差永远不会小于验证数据集上的原始树。

第一个说法正确,第二个说法错误。

这对于您选择的任何修剪策略都是正确的,前提是原始树的构建是为了最大限度地减少训练集中的错误。

True: the pruned tree error can never be less than the original tree on the training dataset.

原始树越具体越好,用叶子节点替换子树只能得到不太具体的树。所以训练数据中的误差要么保持不变,要么增加,永远不会减少。

False: the pruned tree error can never be less than the original tree on the validation dataset.

我们假设验证集是未知的并且独立于训练数据集。所以,作为一般规则,您不能做出任何此类假设。修剪时,验证数据集上的错误可以增加、保持不变或减少。

但是,我们预计错误会减少,因为树对训练数据的特异性会降低,因此更有可能与不同的数据集兼容。