决策树解释(泰坦尼克数据)

Decision Tree Interpretation (Titanic Data)

我对 decision trees 还很陌生,当我向下移动分支时,在解释它们时遇到一些麻烦。我有几个关于在 R 上制作的情节的问题。响应变量是 Survived (Yes/No),这是由年龄、票价、兄弟姐妹的数量来预测的,以及 parents 的数量我使用 Kaggle 的 Titanic data-set.

在下面附加了一个决策树
  1. green/blue 的不同颜色是什么意思?
  2. 如何解释叶节点?
  3. 我了解最高节点解释为 38% 幸存,62% 成功 无法生存,并且 100% 的人口都在那个桶里。如果我移动 向右...我将如何解释 Bucket #3?如果我继续前进, 桶#6?等等等等...

Titanic Decision Tree

1) 一个节点根据该节点对应的多数class来着色。多数 class 标签为 no(未存活)的节点为绿色,否则为蓝色(yes 或存活)。

2) 下面解释一下最左边的叶节点。 83% 个节点对应的数据点有 class 个标签 no17% 个有 class 个标签 yes。此节点包含来自整个数据集的 62% 个数据点。

3) Bucket #3 可以类似地解释:对应于节点的数据点的 26% 有 class 标签 no74% 有 class标签yes。此节点包含来自整个数据集的 35% 个数据点。如果计算节点 #2 和 #3 的 no 标签的加权比例,您将得到 0.65*0.81+0.35*0.26=0.6175~0.62,这是包含标签 [=10= 的根节点中的数据比例].