插入符和虚拟变量
Caret and dummy variables
调用caret包的train
函数时,数据会自动转换,所有因子变量都变成一组虚拟变量。
如何防止这种行为?是否可以说插入符号 "don't transform factors into dummy variables"?
例如:
如果我 运行 rpart
算法对 etitanic
数据:
library(caret)
library(earth)
data(etitanic)
etitanic$survived[etitanic$survived==1] <- 'YES'
etitanic$survived[etitanic$survived!='YES'] <- 'NO'
model<-train(survived~., data=etitanic, method='rpart')
那么最终生成的模型是这样的:
> model$finalModel
n= 1046
node), split, n, loss, yval, (yprob)
* denotes terminal node
1) root 1046 427 NO (0.5917782 0.4082218)
2) sexmale>=0.5 658 135 NO (0.7948328 0.2051672)
4) age>=9.5 615 110 NO (0.8211382 0.1788618) *
5) age< 9.5 43 18 YES (0.4186047 0.5813953)
10) sibsp>=2.5 16 1 NO (0.9375000 0.0625000) *
11) sibsp< 2.5 27 3 YES (0.1111111 0.8888889) *
3) sexmale< 0.5 388 96 YES (0.2474227 0.7525773) *
而如果我直接 运行 rpart
算法并构建一棵树,我会得到
> rpart(survived~., data=etitanic)
n= 1046
node), split, n, loss, yval, (yprob)
* denotes terminal node
1) root 1046 427 NO (0.59177820 0.40822180)
2) sex=male 658 135 NO (0.79483283 0.20516717)
4) age>=9.5 615 110 NO (0.82113821 0.17886179) *
5) age< 9.5 43 18 YES (0.41860465 0.58139535)
10) sibsp>=2.5 16 1 NO (0.93750000 0.06250000) *
11) sibsp< 2.5 27 3 YES (0.11111111 0.88888889) *
3) sex=female 388 96 YES (0.24742268 0.75257732)
6) pclass=3rd 152 72 NO (0.52631579 0.47368421)
12) age>=1.5 145 66 NO (0.54482759 0.45517241)
24) sibsp>=1.5 19 4 NO (0.78947368 0.21052632) *
25) sibsp< 1.5 126 62 NO (0.50793651 0.49206349)
50) age>=27.5 44 15 NO (0.65909091 0.34090909) *
51) age< 27.5 82 35 YES (0.42682927 0.57317073) *
13) age< 1.5 7 1 YES (0.14285714 0.85714286) *
7) pclass=1st,2nd 236 16 YES (0.06779661 0.93220339) *
现在,忘记树木不同的部分。我知道,它们是用不同的参数构建的。但是,它们也建立在 不同的数据集 之上。例如,插入符号树建立在一列为 "sexmale" 的数据集上,而这是由原始数据中的 sex
列构成的虚拟列。
有什么方法可以告诉 caret
在将数据提供给 rpart
之前不要创建虚拟变量吗?
为了使 caret 的行为与 rpart 完全相同,我首先将 trainControl
函数设置为 "none" 并将使用一条记录的 tuneGrid,cp 设置为 0.01。默认值与 rpart
.
的默认值完全相同
ctrl <- trainControl(method = "none")
#caret formula model
model<-train(survived ~ .,
data=etitanic,
method='rpart',
trControl = ctrl,
tuneGrid = expand.grid(cp = 0.01))
# rpart model
model_rp <- rpart(survived~., data=etitanic)
print(model$finalModel)
1) root 1046 427 NO (0.59177820 0.40822180)
2) sexmale>=0.5 658 135 NO (0.79483283 0.20516717)
4) age>=9.5 615 110 NO (0.82113821 0.17886179) *
5) age< 9.5 43 18 YES (0.41860465 0.58139535)
10) sibsp>=2.5 16 1 NO (0.93750000 0.06250000) *
11) sibsp< 2.5 27 3 YES (0.11111111 0.88888889) *
3) sexmale< 0.5 388 96 YES (0.24742268 0.75257732)
6) pclass3rd>=0.5 152 72 NO (0.52631579 0.47368421)
12) age>=1.5 145 66 NO (0.54482759 0.45517241)
24) sibsp>=1.5 19 4 NO (0.78947368 0.21052632) *
25) sibsp< 1.5 126 62 NO (0.50793651 0.49206349)
50) age>=27.5 44 15 NO (0.65909091 0.34090909) *
51) age< 27.5 82 35 YES (0.42682927 0.57317073) *
13) age< 1.5 7 1 YES (0.14285714 0.85714286) *
7) pclass3rd< 0.5 236 16 YES (0.06779661 0.93220339) *
print(model_rp)
1) root 1046 427 NO (0.59177820 0.40822180)
2) sex=male 658 135 NO (0.79483283 0.20516717)
4) age>=9.5 615 110 NO (0.82113821 0.17886179) *
5) age< 9.5 43 18 YES (0.41860465 0.58139535)
10) sibsp>=2.5 16 1 NO (0.93750000 0.06250000) *
11) sibsp< 2.5 27 3 YES (0.11111111 0.88888889) *
3) sex=female 388 96 YES (0.24742268 0.75257732)
6) pclass=3rd 152 72 NO (0.52631579 0.47368421)
12) age>=1.5 145 66 NO (0.54482759 0.45517241)
24) sibsp>=1.5 19 4 NO (0.78947368 0.21052632) *
25) sibsp< 1.5 126 62 NO (0.50793651 0.49206349)
50) age>=27.5 44 15 NO (0.65909091 0.34090909) *
51) age< 27.5 82 35 YES (0.42682927 0.57317073) *
13) age< 1.5 7 1 YES (0.14285714 0.85714286) *
7) pclass=1st,2nd 236 16 YES (0.06779661 0.93220339) *
查看这两个模型,您可以看到即使插入符号将因子和字符转换为具有默认 class 作为参考 class,树与节点。您可以使用 partykit 包并在模型上使用 as.party()
以获得更好的布局。
但是如果你想在不使用因子的情况下得到与 rpart 完全相同的模型,你可以使用默认的模型使用方式。
#caret default model
model_xy <-train(x = etitanic[, -2],
y = etitanic$survived,
method='rpart',
trControl = ctrl,
tuneGrid = expand.grid(cp = 0.01))
print(model_xy$finalModel)
1) root 1046 427 NO (0.59177820 0.40822180)
2) sex=male 658 135 NO (0.79483283 0.20516717)
4) age>=9.5 615 110 NO (0.82113821 0.17886179) *
5) age< 9.5 43 18 YES (0.41860465 0.58139535)
10) sibsp>=2.5 16 1 NO (0.93750000 0.06250000) *
11) sibsp< 2.5 27 3 YES (0.11111111 0.88888889) *
3) sex=female 388 96 YES (0.24742268 0.75257732)
6) pclass=3rd 152 72 NO (0.52631579 0.47368421)
12) age>=1.5 145 66 NO (0.54482759 0.45517241)
24) sibsp>=1.5 19 4 NO (0.78947368 0.21052632) *
25) sibsp< 1.5 126 62 NO (0.50793651 0.49206349)
50) age>=27.5 44 15 NO (0.65909091 0.34090909) *
51) age< 27.5 82 35 YES (0.42682927 0.57317073) *
13) age< 1.5 7 1 YES (0.14285714 0.85714286) *
7) pclass=1st,2nd 236 16 YES (0.06779661 0.93220339) *
调用caret包的train
函数时,数据会自动转换,所有因子变量都变成一组虚拟变量。
如何防止这种行为?是否可以说插入符号 "don't transform factors into dummy variables"?
例如:
如果我 运行 rpart
算法对 etitanic
数据:
library(caret)
library(earth)
data(etitanic)
etitanic$survived[etitanic$survived==1] <- 'YES'
etitanic$survived[etitanic$survived!='YES'] <- 'NO'
model<-train(survived~., data=etitanic, method='rpart')
那么最终生成的模型是这样的:
> model$finalModel
n= 1046
node), split, n, loss, yval, (yprob)
* denotes terminal node
1) root 1046 427 NO (0.5917782 0.4082218)
2) sexmale>=0.5 658 135 NO (0.7948328 0.2051672)
4) age>=9.5 615 110 NO (0.8211382 0.1788618) *
5) age< 9.5 43 18 YES (0.4186047 0.5813953)
10) sibsp>=2.5 16 1 NO (0.9375000 0.0625000) *
11) sibsp< 2.5 27 3 YES (0.1111111 0.8888889) *
3) sexmale< 0.5 388 96 YES (0.2474227 0.7525773) *
而如果我直接 运行 rpart
算法并构建一棵树,我会得到
> rpart(survived~., data=etitanic)
n= 1046
node), split, n, loss, yval, (yprob)
* denotes terminal node
1) root 1046 427 NO (0.59177820 0.40822180)
2) sex=male 658 135 NO (0.79483283 0.20516717)
4) age>=9.5 615 110 NO (0.82113821 0.17886179) *
5) age< 9.5 43 18 YES (0.41860465 0.58139535)
10) sibsp>=2.5 16 1 NO (0.93750000 0.06250000) *
11) sibsp< 2.5 27 3 YES (0.11111111 0.88888889) *
3) sex=female 388 96 YES (0.24742268 0.75257732)
6) pclass=3rd 152 72 NO (0.52631579 0.47368421)
12) age>=1.5 145 66 NO (0.54482759 0.45517241)
24) sibsp>=1.5 19 4 NO (0.78947368 0.21052632) *
25) sibsp< 1.5 126 62 NO (0.50793651 0.49206349)
50) age>=27.5 44 15 NO (0.65909091 0.34090909) *
51) age< 27.5 82 35 YES (0.42682927 0.57317073) *
13) age< 1.5 7 1 YES (0.14285714 0.85714286) *
7) pclass=1st,2nd 236 16 YES (0.06779661 0.93220339) *
现在,忘记树木不同的部分。我知道,它们是用不同的参数构建的。但是,它们也建立在 不同的数据集 之上。例如,插入符号树建立在一列为 "sexmale" 的数据集上,而这是由原始数据中的 sex
列构成的虚拟列。
有什么方法可以告诉 caret
在将数据提供给 rpart
之前不要创建虚拟变量吗?
为了使 caret 的行为与 rpart 完全相同,我首先将 trainControl
函数设置为 "none" 并将使用一条记录的 tuneGrid,cp 设置为 0.01。默认值与 rpart
.
ctrl <- trainControl(method = "none")
#caret formula model
model<-train(survived ~ .,
data=etitanic,
method='rpart',
trControl = ctrl,
tuneGrid = expand.grid(cp = 0.01))
# rpart model
model_rp <- rpart(survived~., data=etitanic)
print(model$finalModel)
1) root 1046 427 NO (0.59177820 0.40822180)
2) sexmale>=0.5 658 135 NO (0.79483283 0.20516717)
4) age>=9.5 615 110 NO (0.82113821 0.17886179) *
5) age< 9.5 43 18 YES (0.41860465 0.58139535)
10) sibsp>=2.5 16 1 NO (0.93750000 0.06250000) *
11) sibsp< 2.5 27 3 YES (0.11111111 0.88888889) *
3) sexmale< 0.5 388 96 YES (0.24742268 0.75257732)
6) pclass3rd>=0.5 152 72 NO (0.52631579 0.47368421)
12) age>=1.5 145 66 NO (0.54482759 0.45517241)
24) sibsp>=1.5 19 4 NO (0.78947368 0.21052632) *
25) sibsp< 1.5 126 62 NO (0.50793651 0.49206349)
50) age>=27.5 44 15 NO (0.65909091 0.34090909) *
51) age< 27.5 82 35 YES (0.42682927 0.57317073) *
13) age< 1.5 7 1 YES (0.14285714 0.85714286) *
7) pclass3rd< 0.5 236 16 YES (0.06779661 0.93220339) *
print(model_rp)
1) root 1046 427 NO (0.59177820 0.40822180)
2) sex=male 658 135 NO (0.79483283 0.20516717)
4) age>=9.5 615 110 NO (0.82113821 0.17886179) *
5) age< 9.5 43 18 YES (0.41860465 0.58139535)
10) sibsp>=2.5 16 1 NO (0.93750000 0.06250000) *
11) sibsp< 2.5 27 3 YES (0.11111111 0.88888889) *
3) sex=female 388 96 YES (0.24742268 0.75257732)
6) pclass=3rd 152 72 NO (0.52631579 0.47368421)
12) age>=1.5 145 66 NO (0.54482759 0.45517241)
24) sibsp>=1.5 19 4 NO (0.78947368 0.21052632) *
25) sibsp< 1.5 126 62 NO (0.50793651 0.49206349)
50) age>=27.5 44 15 NO (0.65909091 0.34090909) *
51) age< 27.5 82 35 YES (0.42682927 0.57317073) *
13) age< 1.5 7 1 YES (0.14285714 0.85714286) *
7) pclass=1st,2nd 236 16 YES (0.06779661 0.93220339) *
查看这两个模型,您可以看到即使插入符号将因子和字符转换为具有默认 class 作为参考 class,树与节点。您可以使用 partykit 包并在模型上使用 as.party()
以获得更好的布局。
但是如果你想在不使用因子的情况下得到与 rpart 完全相同的模型,你可以使用默认的模型使用方式。
#caret default model
model_xy <-train(x = etitanic[, -2],
y = etitanic$survived,
method='rpart',
trControl = ctrl,
tuneGrid = expand.grid(cp = 0.01))
print(model_xy$finalModel)
1) root 1046 427 NO (0.59177820 0.40822180)
2) sex=male 658 135 NO (0.79483283 0.20516717)
4) age>=9.5 615 110 NO (0.82113821 0.17886179) *
5) age< 9.5 43 18 YES (0.41860465 0.58139535)
10) sibsp>=2.5 16 1 NO (0.93750000 0.06250000) *
11) sibsp< 2.5 27 3 YES (0.11111111 0.88888889) *
3) sex=female 388 96 YES (0.24742268 0.75257732)
6) pclass=3rd 152 72 NO (0.52631579 0.47368421)
12) age>=1.5 145 66 NO (0.54482759 0.45517241)
24) sibsp>=1.5 19 4 NO (0.78947368 0.21052632) *
25) sibsp< 1.5 126 62 NO (0.50793651 0.49206349)
50) age>=27.5 44 15 NO (0.65909091 0.34090909) *
51) age< 27.5 82 35 YES (0.42682927 0.57317073) *
13) age< 1.5 7 1 YES (0.14285714 0.85714286) *
7) pclass=1st,2nd 236 16 YES (0.06779661 0.93220339) *