RPart中的乱码输出图

Gibberish Output in RPart plot in R

我正在尝试 运行 使用 R 中的 RPart 的决策树,在具有 26 个变量的数据集上将结果分类为 0 或 1。该模型的准确度为 81 % 并且当我继续绘制树时,我得到了非常乱码的变量拆分值。例如:v10 包含一个国家列表,例如美国、英国、印度等,但此处显示的情节是一些无意义的值。这里的 v7 是一个 URL 列表,v12 是我数据集中的一些定量数字,但树值看起来很糟糕。

该算法用字母表中的大小写字母替换每个因素的水平。如果一个因子中的水平超过 56 个,则重复 Z 字母,因此不建议使用超过 56 个水平的因子作为 rpart 模型的输入。

但是,可以避免不需要的 "gibberish" 输出:如果您使用 plot() + text(),请尝试在 text() 函数中使用 "pretty" 参数。示例:

plot(tree)
text(tree, pretty=1)

其他输出函数有其特定的参数。 "labels()" 例如,有 "minlength" 参数:

labels(tree)
labels(tree,minlength=0)

希望对您有所帮助。