具有分类特征的决策树

Decision tree with categorical features

我正在实施决策树。 假设 "race" 特征有以下可能的值: ['Asian-Pac-Islander', 'Amer-Indian-Eskimo', 'White', 'Other', 'Black']

假设节点中的样本具有以下 "race" 特征值,并且 "race" 被选为当前最佳分割特征。

['Asian-Pac-Islander', 'Asian-Pac-Islander', 'Amer-Indian-Eskimo', 'White', 'White', 'White', 'Other', 'Black']

请注意,这些值组合在一起 - "sorted"。

假设entropy diff告诉我以下是最好的分割位置:(竖线“|”)

['Asian-Pac-Islander', 'Asian-Pac-Islander', 'Amer-Indian-Eskimo', | 'White'、'White'、'White'、'Other'、'Black']

那么拆分规则到底是什么?让 "asian-pac-islander" 和 "amer_indian_eskimo" 向左走,让 "white"、"other" 和 "black" 向右走是没有意义的,因为它们不是数字。

谢谢。

请记住,决策树节点的 "left" 和 "right" 子节点是人类用于可视化的任意标签,而不是树的固有数学属性。翻转任何节点的左右子节点都会产生相同的(数学家可能会说 "isomorphic")树。

在对分类属性进行拆分时,您通常会尝试每组值并比较它们的基尼系数或信息增益以确定最佳拆分。一旦你确定了最佳分组,哪个组是 "left" 组,哪个组是 "right" 组是随机选择的,因为这并不重要。

您似乎也在考虑字面意义上的拆分,即在特定排序的列表中画一条分界线。对于分类属性,您不会以这种方式创建拆分。相反,您将拆分条件定义为 "White, Other, and Black go left; all other Race labels go right"。进入拆分节点的数据顺序不应影响结果拆分。