如何在随机森林中获得相同的预测(概率和 class)

how to get the same prediction (probability and class) in a random forest

我正在为两个模型安装 ranger 包和相同的种子。第一个预测 class,第二个预测 returns 概率矩阵,我的目标是达到相同的结果,但我在 4 个寄存器中有所不同。有人知道解决方案。我使用每个 class 的最大概率。切点应该是多少?

library(ranger)
library(caret)

## fit model 1
mod <- ranger(formula = Species ~., data = iris, seed = 2020)
res1 <- predict(object = mod, data = iris[,-5])$predictions

## fit model 2
mod2 <- ranger(formula = Species ~., data = iris, probability = TRUE, seed = 2020)
res2 <- factor(ifelse(apply(predict(object = mod2, data = iris[,-5])$predictions, 1, which.max) == 1,"setosa",
       ifelse(apply(predict(object = mod2, data = iris[,-5])$predictions, 1, which.max) == 2, "versicolor", "virginica")),
       levels = c("setosa","versicolor","virginica"))

head(data.frame(res1, res2))
    res1   res2
1 setosa setosa
2 setosa setosa
3 setosa setosa
4 setosa setosa
5 setosa setosa
6 setosa setosa

all.equal(res1, res2)
[1] "4 string mismatches"

我的预期输出

all.equal(res1, res2)
[1] TRUE

非常有趣的问题:我是 ranger 的用户,并不知道这个结果。

正如@MrFlick 在对您的回答的评论中所述,您使用了两种不同的方法。您可以确认它正在访问 modmod2 的元素 treetype:

mod$treetype
"Classification"

mod2$treetype
"Probability estimation"

没有分割点可以保证您的两个模型的结果相同。概率森林 not 与返回每棵树的二元投票平均值的分类森林相同。相反,每棵树 returns一个连续概率估计,然后那些连续估计是平均得到整体概率预测。请参阅 ranger 文档:

Predictions are class probabilities for each sample. In contrast to other implementations, each tree returns a probability estimate and these estimates are averaged for the forest probability estimate.

不同的是,在分类森林中,每棵树的每个节点都是二元的,而在概率森林中,每个节点都是连续的。