决策树基尼杂质基础数学Q
Decision Tree Gini Impurity Basic Math Q
假设你有 3 个 class 球:红色、绿色、蓝色。
任何彩球出现的几率为红色 = 4/10,蓝色 = 3/10,绿色 = 3/10
误class化红计算为4/10*(3/10 + 3/10)或采摘几率"True Class" * "Wrong Class"。
为什么用乘法而不是加法来计算选错红球的几率?我知道 Gini 杂质方程将这个基本思想推广到所有 C classes,每个 class 有 N 个点和 Ni 个数据点。我想我忘记了我的基本概率直觉。
一个球是red
的概率是0.4。只有当球实际上是红色的时候,你才会对红球犯错。
假设猜测恰好是基于球的概率分布[注1],那么猜蓝色的概率为0.3,同样猜绿色的概率为0.3。如果球真的是红色的,那么这些都是错误的猜测,因为唯一可能的猜测是正确的。
如果两个事件是独立的,则它们都发生的概率(P和Q)是它们概率的乘积。如果两个事件是互斥的,那么其中一个事件发生的概率(P或Q)就是它们的概率之和。
所以球是红色 和 被错误分类的概率(蓝色 或 绿色)是 0.4 * (0.3 + 0.3) .
为此,我们必须加上蓝球被错误分类为红色或绿色的概率 (0.3 * (0.4 + 0.3)) 以及绿球被错误分类为蓝色或红色的概率 (0.3 * (0.3 + 0.4)) 总计 0.66。这非常接近最大值 2/3(当所有概率都相等时)。
备注:
这里我的答案基于 definition of Gini impurity from Wikipedia:
Gini impurity is a measure of how often a randomly chosen element from the set would be incorrectly labeled if it were randomly labeled according to the distribution of labels in the subset.
假设你有 3 个 class 球:红色、绿色、蓝色。
任何彩球出现的几率为红色 = 4/10,蓝色 = 3/10,绿色 = 3/10
误class化红计算为4/10*(3/10 + 3/10)或采摘几率"True Class" * "Wrong Class"。
为什么用乘法而不是加法来计算选错红球的几率?我知道 Gini 杂质方程将这个基本思想推广到所有 C classes,每个 class 有 N 个点和 Ni 个数据点。我想我忘记了我的基本概率直觉。
一个球是red
的概率是0.4。只有当球实际上是红色的时候,你才会对红球犯错。
假设猜测恰好是基于球的概率分布[注1],那么猜蓝色的概率为0.3,同样猜绿色的概率为0.3。如果球真的是红色的,那么这些都是错误的猜测,因为唯一可能的猜测是正确的。
如果两个事件是独立的,则它们都发生的概率(P和Q)是它们概率的乘积。如果两个事件是互斥的,那么其中一个事件发生的概率(P或Q)就是它们的概率之和。
所以球是红色 和 被错误分类的概率(蓝色 或 绿色)是 0.4 * (0.3 + 0.3) .
为此,我们必须加上蓝球被错误分类为红色或绿色的概率 (0.3 * (0.4 + 0.3)) 以及绿球被错误分类为蓝色或红色的概率 (0.3 * (0.3 + 0.4)) 总计 0.66。这非常接近最大值 2/3(当所有概率都相等时)。
备注:
这里我的答案基于 definition of Gini impurity from Wikipedia:
Gini impurity is a measure of how often a randomly chosen element from the set would be incorrectly labeled if it were randomly labeled according to the distribution of labels in the subset.