我应该将决策树的二元因子变量编码为零还是一?
Should I code binary factor variables as zero or one for decision tree?
我正在构建一个决策树,我有一堆二进制变量,我正在将它们编码为因子。
他们各有两级,第一级是“有属性”,第二级是“没有属性”
并将属性替换为列的名称,例如“有蓝玫瑰踏板”
这是我应用数据的模型,以 iris 作为示例代码
library(rpart)
model <- rpart(Species ~., data = iris)
par(xpd = NA)
plot(model)
text(model, digits = 3)
我的问题是我应该将二进制因子变量编码为零还是一?
典型惯例是用 1
编码 True
值,用 0
.
编码 False
值
使用此映射可以按以下方式组合逻辑和算术运算:
result <- (a == TRUE)*2 + (a == FALSE)*3
我正在构建一个决策树,我有一堆二进制变量,我正在将它们编码为因子。
他们各有两级,第一级是“有属性”,第二级是“没有属性”
并将属性替换为列的名称,例如“有蓝玫瑰踏板”
这是我应用数据的模型,以 iris 作为示例代码
library(rpart)
model <- rpart(Species ~., data = iris)
par(xpd = NA)
plot(model)
text(model, digits = 3)
我的问题是我应该将二进制因子变量编码为零还是一?
典型惯例是用 1
编码 True
值,用 0
.
False
值
使用此映射可以按以下方式组合逻辑和算术运算:
result <- (a == TRUE)*2 + (a == FALSE)*3