成本复杂性修剪:修剪错误
Cost Complexity Pruning: Pruned error
谁能解释一下这两句话:
在Cost Complexity Pruning中,修剪后的树误差永远不会小于训练数据集上的原始树。
在成本复杂性修剪中,修剪后的树误差永远不会小于验证数据集上的原始树。
第一个说法正确,第二个说法错误。
这对于您选择的任何修剪策略都是正确的,前提是原始树的构建是为了最大限度地减少训练集中的错误。
True: the pruned tree error can never be less than the original tree on the training dataset.
原始树越具体越好,用叶子节点替换子树只能得到不太具体的树。所以训练数据中的误差要么保持不变,要么增加,永远不会减少。
False: the pruned tree error can never be less than the original tree on the validation dataset.
我们假设验证集是未知的并且独立于训练数据集。所以,作为一般规则,您不能做出任何此类假设。修剪时,验证数据集上的错误可以增加、保持不变或减少。
但是,我们预计错误会减少,因为树对训练数据的特异性会降低,因此更有可能与不同的数据集兼容。
谁能解释一下这两句话:
在Cost Complexity Pruning中,修剪后的树误差永远不会小于训练数据集上的原始树。
在成本复杂性修剪中,修剪后的树误差永远不会小于验证数据集上的原始树。
第一个说法正确,第二个说法错误。
这对于您选择的任何修剪策略都是正确的,前提是原始树的构建是为了最大限度地减少训练集中的错误。
True: the pruned tree error can never be less than the original tree on the training dataset.
原始树越具体越好,用叶子节点替换子树只能得到不太具体的树。所以训练数据中的误差要么保持不变,要么增加,永远不会减少。
False: the pruned tree error can never be less than the original tree on the validation dataset.
我们假设验证集是未知的并且独立于训练数据集。所以,作为一般规则,您不能做出任何此类假设。修剪时,验证数据集上的错误可以增加、保持不变或减少。
但是,我们预计错误会减少,因为树对训练数据的特异性会降低,因此更有可能与不同的数据集兼容。