重复的行如何影响决策树?

how do duplicated rows effect a decision tree?

我正在使用 Rpart{} 为分类变量构建决策树,我想知道我是否应该只使用唯一行集的完整数据集。

我将此作为关于决策树的一般性问题来回答,而不是关于 R 实现的问题。

决策树的参数通常基于记录数——想到的是最小叶大小和最小拆分搜索大小。此外,在构建树时,纯度度量会受到节点大小的影响。当您有重复的记录时,您就是在隐式地对这些行中的值施加权重。

这不好也不坏。您只需要了解要构建的数据和模型。如果重复值来自实验的不同运行,那么它们应该没问题。

在某些情况下,重复(或等效权重)可能非常糟糕。例如,如果您对数据进行过采样以在目标上获得平衡样本,那么额外的行就会有问题。单个叶子最终可能由原始数据中的单个实例组成——过度拟合将成为一个问题。

在某些方面,这取决于数据本身。重复的行是有效数据吗?或者它们只是部分重复但仍然很重要?

如果数据是一个城镇在给定时间的温度测量值,则重复的温度可能很重要,因为它们会将此变量加权为比另一个不同的单独测量值更正确的温度。

如果数据是三个人同时用同一个温度计记录的温度测量值,那么您可能希望通过减少为唯一值来消除数据中的噪声。

答案很可能是上述的组合。如果您在同一时间段有多个读数相互冲突,您会选择权重最大的一个,然后决定如何打破平局,如果所有测量值都相同,您将删除重复项。通过这种方式,您可以在将数据放入算法之前清理数据。

这一切都归结为数据模型中的相关内容以及重复的行是否与结果相关。