rpart:是否需要训练数据

rpart: Is training data required

我无法理解一些基础知识,所以我被回归树困住了。 我使用 rpart 的分类树来检查环境参数对我测量的树木生长因子的影响。 长话短说:

将数据拆分为训练数据和测试数据的目的是什么,我(何时)需要它?我的搜索显示了他们要么不做要么做了的例子,但我找不到背景故事。只是为了验证修剪?

提前谢谢!

在训练模型之前,您需要将数据拆分为训练数据和测试数据。训练数据帮助模型学习,而测试数据帮助验证模型。

拆分是在运行模型之前完成的,当有一些微调或变化时,必须重新训练模型。

如您所知,后剪枝的一般过程如下:

1) Split data into training & test (validation) sets

2) Build decision tree from training set

3) For every non-leaf node N, prune the subtree rooted by N and
replace with the majority class. Then test accuracy with a
validation set. This validation set could be the one defined before
or not.

这一切都意味着您可能在正确的轨道上,是的,整个数据集可能已用于测试修剪的准确性。