决策树解释(泰坦尼克数据)
Decision Tree Interpretation (Titanic Data)
我对 decision trees
还很陌生,当我向下移动分支时,在解释它们时遇到一些麻烦。我有几个关于在 R 上制作的情节的问题。响应变量是 Survived
(Yes
/No
),这是由年龄、票价、兄弟姐妹的数量来预测的,以及 parents 的数量我使用 Kaggle 的 Titanic
data-set.
在下面附加了一个决策树
- green/blue 的不同颜色是什么意思?
- 如何解释叶节点?
- 我了解最高节点解释为 38% 幸存,62% 成功
无法生存,并且 100% 的人口都在那个桶里。如果我移动
向右...我将如何解释 Bucket #3?如果我继续前进,
桶#6?等等等等...
Titanic Decision Tree
1) 一个节点根据该节点对应的多数class来着色。多数 class 标签为 no
(未存活)的节点为绿色,否则为蓝色(yes
或存活)。
2) 下面解释一下最左边的叶节点。 83%
个节点对应的数据点有 class 个标签 no
,17%
个有 class 个标签 yes
。此节点包含来自整个数据集的 62%
个数据点。
3) Bucket #3 可以类似地解释:对应于节点的数据点的 26%
有 class 标签 no
和 74%
有 class标签yes
。此节点包含来自整个数据集的 35%
个数据点。如果计算节点 #2 和 #3 的 no
标签的加权比例,您将得到 0.65*0.81+0.35*0.26=0.6175~0.62
,这是包含标签 [=10= 的根节点中的数据比例].
我对 decision trees
还很陌生,当我向下移动分支时,在解释它们时遇到一些麻烦。我有几个关于在 R 上制作的情节的问题。响应变量是 Survived
(Yes
/No
),这是由年龄、票价、兄弟姐妹的数量来预测的,以及 parents 的数量我使用 Kaggle 的 Titanic
data-set.
- green/blue 的不同颜色是什么意思?
- 如何解释叶节点?
- 我了解最高节点解释为 38% 幸存,62% 成功 无法生存,并且 100% 的人口都在那个桶里。如果我移动 向右...我将如何解释 Bucket #3?如果我继续前进, 桶#6?等等等等...
Titanic Decision Tree
1) 一个节点根据该节点对应的多数class来着色。多数 class 标签为 no
(未存活)的节点为绿色,否则为蓝色(yes
或存活)。
2) 下面解释一下最左边的叶节点。 83%
个节点对应的数据点有 class 个标签 no
,17%
个有 class 个标签 yes
。此节点包含来自整个数据集的 62%
个数据点。
3) Bucket #3 可以类似地解释:对应于节点的数据点的 26%
有 class 标签 no
和 74%
有 class标签yes
。此节点包含来自整个数据集的 35%
个数据点。如果计算节点 #2 和 #3 的 no
标签的加权比例,您将得到 0.65*0.81+0.35*0.26=0.6175~0.62
,这是包含标签 [=10= 的根节点中的数据比例].