当所有数据都是数字时,如何计算 CART 算法的基尼指数?
how to calculate Gini Index for CART algorithm when all data is numeric?
我对分类算法 CART 有一些问题,
我的数据是这样的,问题是当所有数据都是数字时,我如何计算 "goodness of split" 使用 GINI 指数?
Numerical Dataset
Gini 指数适用于分类数据,它衡量特定变量随机被错误分类的程度或概率chosen.So 对于一棵树,我们选择 Gini 指数最小的特征。
现在在你的例子中,我们有数值数据,所以分割的特征选择是用高于阈值的元素完成的。
对于阈值的计算,将数字特征按升序排序,并尝试将每个值作为阈值,并计算每个值的信息增益作为阈值。具有最大信息增益的阈值将是您的阈值。
我对分类算法 CART 有一些问题,
我的数据是这样的,问题是当所有数据都是数字时,我如何计算 "goodness of split" 使用 GINI 指数?
Numerical Dataset
Gini 指数适用于分类数据,它衡量特定变量随机被错误分类的程度或概率chosen.So 对于一棵树,我们选择 Gini 指数最小的特征。
现在在你的例子中,我们有数值数据,所以分割的特征选择是用高于阈值的元素完成的。
对于阈值的计算,将数字特征按升序排序,并尝试将每个值作为阈值,并计算每个值的信息增益作为阈值。具有最大信息增益的阈值将是您的阈值。