如何解释 h2o 决策树?

How to interpret an h2o decision tree?

我绘制了一个 h2o 决策树:
我关注了很多关于 SO 的帖子,如果我错了,请纠正我,但是叶子上的值是相关性,级别是分类值的计数,树 0 表示创建的第一棵树。
现在我的问题是
1. 我无法弄清楚分类值的 "greater or equal" 符号和 "smaller than" 符号。例如,如果我们在 Z<10.032598 之后继续,我们在右边有 "greater or equal" 符号,这意味着什么?此外,我们在左侧有一个 "smaller than" 符号,其中 NA 是分类变量,但是 "smaller than" 分类变量甚至意味着什么?
2. 如果我们从顶部 (c) 开始向右走,我们得到值 1,我理解这意味着 c 有 1 个相关性。但是如果我们再次下降 1 级到 Z<10.032598 ,右边的 "greater than or equal" 符号再次暗示 1 相关性。这是什么意思?

如果您正在构建一个简单的决策树,则叶节点的值是输出概率,而不是相关性,并且级别不是分类值的计数,因为您可以在树中的不同级别重复多个特征。级别取决于您在训练模型时提供的深度。

  1. 大于号或小于号表示你要去的方向。例如在第 1 级,如果 z>10.0325 比你向右走,但如果它小于你在树中向左走。 NA 基本上表明,如果值小于阈值或为空,则向左走。您的模型正在考虑数值类别变量,H2O 为您提供了使用 categorical_encoding 更改它的选项。由于数据是数字格式,因此解释为数字。

  2. 再次做出决定 1 的原因是您的模型现在正在检查不同的特征以验证结果。如果第一级失败并且模型不确定输出,它会检查第二级并做同样的事情,然后沿着树向下走,直到达到预测。