解释决策树中的数字
Explaining the numbers in a decision tree
使用著名的 Iris 数据集和 Julia 决策树分类器,我得到了以下树。
using RDatasets
using DecisionTree
iris = dataset("datasets", "iris")
features = convert(Array, iris[:, 1:4])
labels = convert(Array, iris[:, 5]);
model = build_tree(labels, features)
model = prune_tree(model, 0.9)
print_tree(model)
Feature 3, Threshold 3.0
L-> setosa : 50/50
R-> Feature 4, Threshold 1.8
L-> Feature 3, Threshold 5.0
L-> versicolor : 47/48
R-> Feature 4, Threshold 1.6
L-> virginica : 3/3
R-> Feature 1, Threshold 7.2
L-> versicolor : 2/2
R-> virginica : 1/1
R-> Feature 3, Threshold 4.9
L-> Feature 1, Threshold 6.0
L-> versicolor : 1/1
R-> virginica : 2/2
R-> virginica : 43/43
我无法真正解释某些分支之后的数字,例如 "setosa : 50/50" 或 "virginica : 3/3"。
有人可以解释一下这些是什么意思吗?
看起来在节点 "setosa : 50/50" 上有 50 朵花被正确分类(50 朵花变成了这个节点,50 朵花是 setosa)
versicolor : 47/48 表示其中之一是 virginica 或 setosa。
使用著名的 Iris 数据集和 Julia 决策树分类器,我得到了以下树。
using RDatasets
using DecisionTree
iris = dataset("datasets", "iris")
features = convert(Array, iris[:, 1:4])
labels = convert(Array, iris[:, 5]);
model = build_tree(labels, features)
model = prune_tree(model, 0.9)
print_tree(model)
Feature 3, Threshold 3.0
L-> setosa : 50/50
R-> Feature 4, Threshold 1.8
L-> Feature 3, Threshold 5.0
L-> versicolor : 47/48
R-> Feature 4, Threshold 1.6
L-> virginica : 3/3
R-> Feature 1, Threshold 7.2
L-> versicolor : 2/2
R-> virginica : 1/1
R-> Feature 3, Threshold 4.9
L-> Feature 1, Threshold 6.0
L-> versicolor : 1/1
R-> virginica : 2/2
R-> virginica : 43/43
我无法真正解释某些分支之后的数字,例如 "setosa : 50/50" 或 "virginica : 3/3"。
有人可以解释一下这些是什么意思吗?
看起来在节点 "setosa : 50/50" 上有 50 朵花被正确分类(50 朵花变成了这个节点,50 朵花是 setosa) versicolor : 47/48 表示其中之一是 virginica 或 setosa。