决策树基尼杂质基础数学Q

Decision Tree Gini Impurity Basic Math Q

假设你有 3 个 class 球:红色、绿色、蓝色。

任何彩球出现的几率为红色 = 4/10,蓝色 = 3/10,绿色 = 3/10

误class化红计算为4/10*(3/10 + 3/10)或采摘几率"True Class" * "Wrong Class"。

为什么用乘法而不是加法来计算选错红球的几率?我知道 Gini 杂质方程将这个基本思想推广到所有 C classes,每个 class 有 N 个点和 Ni 个数据点。我想我忘记了我的基本概率直觉。

一个球是red的概率是0.4。只有当球实际上是红色的时候,你才会对红球犯错。

假设猜测恰好是基于球的概率分布[注1],那么猜蓝色的概率为0.3,同样猜绿色的概率为0.3。如果球真的是红色的,那么这些都是错误的猜测,因为唯一可能的猜测是正确的。

如果两个事件是独立的,则它们都发生的概率(PQ)是它们概率的乘积。如果两个事件是互斥的,那么其中一个事件发生的概率(PQ)就是它们的概率之和。

所以球是红色 被错误分类的概率(蓝色 绿色)是 0.4 * (0.3 + 0.3) .

为此,我们必须加上蓝球被错误分类为红色或绿色的概率 (0.3 * (0.4 + 0.3)) 以及绿球被错误分类为蓝色或红色的概率 (0.3 * (0.3 + 0.4)) 总计 0.66。这非常接近最大值 2/3(当所有概率都相等时)。


备注:

  1. 这里我的答案基于 definition of Gini impurity from Wikipedia:

    Gini impurity is a measure of how often a randomly chosen element from the set would be incorrectly labeled if it were randomly labeled according to the distribution of labels in the subset.