混合数值和标称数据的决策树算法

Decision tree algorithm for mixed numeric and nominal data

我的数据集包含许多数字和分类属性

示例:numericAttr1、numericAttr2、categoricalAttr1、numericalAttr3...其中 categoricalAttr 值:categoricalAttrValue1、categoricalAttrValue2、categoricalAttrValue3。

我正在考虑将数值数据转换为分类数据(使用分箱算法)并应用 ID3 算法生成树,因为 ID3 仅处理离散数据。但是,如何处理过拟合?并且对数值数据进行分类并应用ID3算法是否正确?

如果过度拟合是一个问题,并且可以替换您的模型,我建议使用随机森林,因为它们对过度拟合非常免疫。

此外,您不必担心 binning 过程会导致过度拟合,因为它会创建您拥有的数据的泛化,如果有的话更有可能减少过度拟合。

有几种决策树学习器可以处理数字属性,例如C4.5 算法(https://en.wikipedia.org/wiki/C4.5_algorithm)。

关于过度拟合,我同意@ginge 的观点,您使用分箱等技术将数值数据转换为分类数据这一事实不应导致过度拟合。