修剪决策树对测试集和训练集准确性的影响

Effects of pruning a decision tree on the accuracy of the test set and training set

我想加深对剪枝如何影响训练集和测试集准确性的理解。

我目前的理解是它会提高测试集的准确性，因为修剪可以防止树过度拟合。这是正确的想法吗？

修剪会如何影响训练集的准确性？我认为它会降低准确性，但为什么呢？

感谢任何帮助，谢谢！

修剪可能会降低训练集的准确性，因为树不会为训练集学习最佳参数以及。但是，如果我们不通过设置适当的参数来克服过度拟合，我们最终可能会构建一个 无法泛化 .

的模型

这意味着该模型学习了一个过于复杂的函数，该函数可以完美地预测训练数据，但无法对未见过的数据进行泛化。当我们的训练集较少时，这会成为一个更大的问题，因为训练集本身可能不足以代表未来可能出现的新样本。

所以你需要注意这些参数来限制最大深度和叶子的数量，以防止模型过于复杂。

您可能还想阅读有关 Bias–variance tradeoff 的内容。