从 sklearn 解释有关决策树节点的信息
Interpreting information on Decision Tree nodes from sklearn
用sklearn创建的决策树的每个节点的“值”的解释是什么?我认为“值”中的数字应该加起来就是“样本”,但正如您从图像中看到的那样,我的数字不是。 (那是一张只有一个节点的图片,但它们都是那样的。)我知道这一定与我应用的 class 权重有关,因为当我在没有加权的情况下制作决策树时,这些值相加直到样品。但是由于我的数据的 10% 是“1”,而 90% 是目标变量的“0”,我分配了 class {0:0:10, 1:0.90} 的权重给补偿数据中的不平衡。应该反过来吗?
请帮助我了解如何解释决策树中的每个节点。谢谢!
value
的解释就是样本的总和乘以它们各自的权重。
根据您的情况,我们可以推断 254.5 是 class 加权为 0.1
。所以,这意味着我们有 2545 个 class 的样本(因为 2545 * 0.1 = 254.5
)。同样,20 * 0.9 = 18
,所以我们有 20 个 class 的样本,权重为 0.9。加在一起,结果是 2545 + 20 = 2565 个样本,等于你的样本数。
默认情况下,样本权重均为1,即value
总和为样本数。
我建议使用整数权重 {0:1, 1:9}
,因为除非必要,否则应避免使用浮点数。
用sklearn创建的决策树的每个节点的“值”的解释是什么?我认为“值”中的数字应该加起来就是“样本”,但正如您从图像中看到的那样,我的数字不是。 (那是一张只有一个节点的图片,但它们都是那样的。)我知道这一定与我应用的 class 权重有关,因为当我在没有加权的情况下制作决策树时,这些值相加直到样品。但是由于我的数据的 10% 是“1”,而 90% 是目标变量的“0”,我分配了 class {0:0:10, 1:0.90} 的权重给补偿数据中的不平衡。应该反过来吗?
请帮助我了解如何解释决策树中的每个节点。谢谢!
value
的解释就是样本的总和乘以它们各自的权重。
根据您的情况,我们可以推断 254.5 是 class 加权为 0.1
。所以,这意味着我们有 2545 个 class 的样本(因为 2545 * 0.1 = 254.5
)。同样,20 * 0.9 = 18
,所以我们有 20 个 class 的样本,权重为 0.9。加在一起,结果是 2545 + 20 = 2565 个样本,等于你的样本数。
默认情况下,样本权重均为1,即value
总和为样本数。
我建议使用整数权重 {0:1, 1:9}
,因为除非必要,否则应避免使用浮点数。