具有模拟数据的回归树 - rpart 包

Regression tree with simulated data - rpart package

我已经模拟了一些数据来创建一个具有 3 个终端节点的回归树:

set.seed(1988)
n=1000
X1<-rnorm(n,mean=0,sd=2)
X2<-rnorm(n,mean=0,sd=2)
e<-rnorm(n)
Y=5*I(X1<1)*I(X2<0.2)+4*I(X1<1)*I(X2>=0.2)+3*I(X1>=1)+e
mydat=as.data.frame(cbind(Y,X1,X2))

所以,我想先按 X1<1 进行拆分,对于 X1<1,我想按 X2<0.2 进行拆分。叶子中Y的值是指标的系数。

如果我运行在RPART包中实现的程序在上面的情况下一切正常。

mytree<-rpart(Y~.,data=mydat)
mytree

输出:

node), split, n, deviance, yval
      * denotes terminal node

1) root 1000 1627.0670 4.043696  
  2) X1>=0.9490461 326  373.8485 3.124825 *
  3) X1< 0.9490461 674  844.8367 4.488135  
    6) X2>=0.2488142 327  312.7506 3.970742 *
    7) X2< 0.2488142 347  362.0582 4.975708 *

它 运行 如果我尝试将系数全部设为负数,也会如此。 但是当我尝试在最终项中生成一些负值和一些正值时(这意味着在树的 "interaction" 中,因此在第二级划分分割的地方),RPART 改变分割的顺序和叶子中的值不正确:

Y=-5*I(X1<1)*I(X2<0.2)+4*I(X1<1)*I(X2>=0.2)+3*I(X1>=1)+e
mydat=as.data.frame(cbind(Y,X1,X2))

mytree<-rpart(Y~.,data=mydat)
mytree

输出:

  node), split, n, deviance, yval
      * denotes terminal node

1) root 1000 17811.4000  0.6136962  
  2) X2< 0.1974489 515  8116.5350 -2.3192910  
    4) X1< 1.002815 343   359.7394 -5.0305350 *
    5) X1>=1.002815 172   207.4313  3.0874360 *
  3) X2>=0.1974489 485   560.3419  3.7281050 *

有人知道这个问题吗?

谢谢

您需要调整复杂度参数cp。请参阅下面的代码。

# Data Generating Process
set.seed(1988)
n=1000
X1<-rnorm(n,mean=0,sd=2)
X2<-rnorm(n,mean=0,sd=2)
e<-rnorm(n)
Y=-5*I(X1<1)*I(X2<0.2)+4*I(X1<1)*I(X2>=0.2)+3*I(X1>=1)+e
mydat=as.data.frame(cbind(Y,X1,X2))

library(rpart)
mytree<-rpart(Y~.,data=mydat, cp=0.0001)

# Plot the cross-validation error vs the complexity parameter
plotcp(mytree)

# Find the optimal value of the complexity parameter cp
optcp <- mytree$cptable[which.min(mytree$cptable[,4]),1]

# Prune the tree using the optial complexity parameter
mytree <- prune(mytree,optcp)

修剪后的树正确表示了底层数据生成过程

library(rattle)
fancyRpartPlot(mytree)