如何使用 rpart 解释不寻常的决策树输出 (multi-类)

How to interpret an unusual decision tree output (multi-classes) using rpart

我正在尝试使用 rpart 程序包绘制决策树,但确实对其输出感到困惑。值得注意的是,在第3个节点,农业和采矿业类如何从城市生产?

我觉得应该是农业和城市,而不是农业和矿业。 这是我的代码

df<-read.csv("https://raw.githubusercontent.com/tuyenhavan/Statistics/Dataset/Landsat_Data.csv")

library(rpart)

library(rpart.plot)
set.seed(123)

dt<-rpart(Land_cover~., data=df)

rpart.plot(dt,cex=0.35)

请帮我解释一下。谢谢

节点显示所有响应类别的相对频率以及多数投票,即最频繁的类别。如果有平局,则最常见类别中的第一个显示为多数票(当然,这是一个有点武断的选择)。

因此,在根节点中,所有类别都以 20% 的相同频率出现,并且 "Agriculture" 显示为多数投票,因为它在字典中是第一个类别。

类似地,在节点 3 中(Band1 >= 0.03599656)"Urban" 和 "Water" 仍然与最频繁的类别并列(200 个观测值 = 24.969%)。因此 "Urban" 被列为多数票。