rpart:是否需要训练数据
rpart: Is training data required
我无法理解一些基础知识,所以我被回归树困住了。
我使用 rpart 的分类树来检查环境参数对我测量的树木生长因子的影响。
长话短说:
将数据拆分为训练数据和测试数据的目的是什么,我(何时)需要它?我的搜索显示了他们要么不做要么做了的例子,但我找不到背景故事。只是为了验证修剪?
提前谢谢!
在训练模型之前,您需要将数据拆分为训练数据和测试数据。训练数据帮助模型学习,而测试数据帮助验证模型。
拆分是在运行模型之前完成的,当有一些微调或变化时,必须重新训练模型。
如您所知,后剪枝的一般过程如下:
1) Split data into training & test (validation) sets
2) Build decision tree from training set
3) For every non-leaf node N, prune the subtree rooted by N and
replace with the majority class. Then test accuracy with a
validation set. This validation set could be the one defined before
or not.
这一切都意味着您可能在正确的轨道上,是的,整个数据集可能已用于测试修剪的准确性。
我无法理解一些基础知识,所以我被回归树困住了。 我使用 rpart 的分类树来检查环境参数对我测量的树木生长因子的影响。 长话短说:
将数据拆分为训练数据和测试数据的目的是什么,我(何时)需要它?我的搜索显示了他们要么不做要么做了的例子,但我找不到背景故事。只是为了验证修剪?
提前谢谢!
在训练模型之前,您需要将数据拆分为训练数据和测试数据。训练数据帮助模型学习,而测试数据帮助验证模型。
拆分是在运行模型之前完成的,当有一些微调或变化时,必须重新训练模型。
如您所知,后剪枝的一般过程如下:
1) Split data into training & test (validation) sets
2) Build decision tree from training set
3) For every non-leaf node N, prune the subtree rooted by N and
replace with the majority class. Then test accuracy with a
validation set. This validation set could be the one defined before
or not.
这一切都意味着您可能在正确的轨道上,是的,整个数据集可能已用于测试修剪的准确性。