为什么随机森林中的 Mean Decrease Gini 取决于人口规模?

Why is Mean Decrease Gini in Random Forest dependent on population size?

我正在使用 R 包 randomForest 并了解变量的重要性,我们可以研究 varImpPlot,它显示 Mean decrease Gini。我已经详细研究了随机森林,并且非常清楚这个模型的详细工作原理,关于平均减少基尼系数是如何计算的,或者更确切地说,为什么它取决于人口规模,我无法完全理解。

当我们计算出 Gini 指数后,我们可以通过以下公式(除以树木数量)汇总平均下降 Gini:

我知道当人口越多时,每棵树的分裂次数就会越多,但平均而言,这些分裂的基尼指数不应该有很小的下降吗?

这是显示我的意思的示例代码(正如预期的那样,树木的数量不影响平均减少基尼系数,但人口有很大的影响,似乎或多或少与人口规模成线性关系):

install.packages("randomForest")
library(randomForest)

set.seed(1)
a <- as.factor(c(rep(1, 20), rep(0, 30)))
b <- c(rnorm(20, 5, 2), rnorm(30, 4, 1))
c <- c(rnorm(25, 0, 1), rnorm(25, 1, 2))
data <- data.frame(a = a, b = b, c = c)

rf <- randomForest(data = data, a ~ b + c, importance = T, ntree = 300)
varImpPlot(rf)


a2 <- as.factor(c(rep(1, 200), rep(0, 300)))
b2 <- c(rnorm(200, 5, 2), rnorm(300, 4, 1))
c2 <- c(rnorm(250, 0, 1), rnorm(250, 1, 2))
data2 <- data.frame(a2 = a2, b2 = b2, c2 = c2)

rf2 <- randomForest(data = data2, a2 ~ b2 + c2, importance = T, ntree = 
300)
varImpPlot(rf2)


a3 <- as.factor(c(rep(1, 2000), rep(0, 3000)))
b3 <- c(rnorm(2000, 5, 2), rnorm(3000, 4, 1))
c3 <- c(rnorm(2500, 0, 1), rnorm(2500, 1, 2))
data3 <- data.frame(a3 = a3, b3 = b3, c3 = c3)

rf3 <- randomForest(data = data3, a3 ~ b3 + c3, importance = T, ntree = 
300)
varImpPlot(rf3)

生成以下这些图,其中我们看到人口每增加一次,x 轴就增加大约 10 倍:

我的猜测是,在进行的每次拆分中有一个基于人数的权重也就是说,在第一个节点中进行的拆分 1000 人的权重比在树的更下方进行的拆分重比如说 10 个人,我在任何文献中都找不到这个,因为似乎所有的计算都是通过考虑人口的分数而不是绝对数字来进行的。

我缺少什么?

你猜对了。

你已经写下了单个分裂的基尼杂质的定义。随机森林中的树通常会分裂多次。更高的节点有更多的样本,直观地说,更多"impure"。因此,基尼平均下降的公式考虑了节点大小。

所以不用

Delta i(tau) = i(tau) - (n_l/n) i(tau_l) - (n_r/n) i(tau_r)

杂质减少计算为

Delta i(tau) = n i(tau) - n_l i(tau_l) - n_r i(tau_r)

也就是说,用原始计数而不是比例来称重杂质。

该算法不断将树拆分为最大可能大小(除非您指定 nodesizemaxnodes 参数)。因此可以多次选择一个特征作为分裂标准。它的整体重要性是这些拆分中 Delta 的总和。这是一棵树的重要性计算。最后,对森林中所有树木的重要性进行平均。

让我们用一个非常人为的例子来说明这一点。

library("randomForest")
#> randomForest 4.6-14
#> Type rfNews() to see new features/changes/bug fixes.
set.seed(1)

n <- 1000
# There are three classes in equal proportions
a <- rep(c(-10,0,10), each = n)
# One feature is useless
b <- rnorm(3*n)
# The other feature is highly predictive but we need at least two splits
c <- rnorm(3*n, a)
data <- data.frame(a = as.factor(a), b = b, c = c)

# First let's do just one split, i.e., ask for just two terminal nodes

# Expected MeanDecreaseGini:
# With one split the best we can do is separate one class from the other two
3000*(2/3) - 1000*0 - 2000*(1/2)
#> [1] 1000

# Actual MeanDecreaseGini
rf3 <- randomForest(data = data, a ~ b + c, importance = TRUE,
                    ntree = 1000, mtry = 2, maxnodes = 2)
rf3$importance[, "MeanDecreaseGini"]
#>        b        c 
#>    0.000 1008.754


# Next let's do two splits; this is enough to separate classes perfectly

# Expected MeanDecreaseGini:
3000*(2/3) - 1000*0 - 2000*(1/2)  +   2000*(1/2) - 1000*0 - 1000*0
#> [1] 2000

# Actual MeanDecreaseGini
rf3 <- randomForest(data = data, a ~ b + c, importance = TRUE,
                    ntree = 1000, mtry = 2, maxnodes = 3)
rf3$importance[, "MeanDecreaseGini"]
#>        b        c 
#>    0.000 1999.333

reprex package (v0.2.1)

于 2019-03-08 创建

PS:很高兴知道如何使用基尼标准计算重要性。但是请阅读这篇文章,了解为什么您应该改用排列重要性:https://explained.ai/rf-importance/index.html