从 sklearn 解释有关决策树节点的信息

Interpreting information on Decision Tree nodes from sklearn

用sklearn创建的决策树的每个节点的“值”的解释是什么？我认为“值”中的数字应该加起来就是“样本”，但正如您从图像中看到的那样，我的数字不是。（那是一张只有一个节点的图片，但它们都是那样的。）我知道这一定与我应用的 class 权重有关，因为当我在没有加权的情况下制作决策树时，这些值相加直到样品。但是由于我的数据的 10% 是“1”，而 90% 是目标变量的“0”，我分配了 class {0:0:10, 1:0.90} 的权重给补偿数据中的不平衡。应该反过来吗？

请帮助我了解如何解释决策树中的每个节点。谢谢！

value的解释就是样本的总和乘以它们各自的权重。

根据您的情况，我们可以推断 254.5 是 class 加权为 0.1。所以，这意味着我们有 2545 个 class 的样本（因为 2545 * 0.1 = 254.5）。同样，20 * 0.9 = 18，所以我们有 20 个 class 的样本，权重为 0.9。加在一起，结果是 2545 + 20 = 2565 个样本，等于你的样本数。

默认情况下，样本权重均为1，即value总和为样本数。

我建议使用整数权重 {0:1, 1:9}，因为除非必要，否则应避免使用浮点数。

从 sklearn 解释有关决策树节点的信息

Interpreting information on Decision Tree nodes from sklearn

python

decision-tree

scikit-learn