如何从回归树 rpart 对象生成预测区间?
How to generate a prediction interval from a regression tree rpart object?
如何从使用 rpart 拟合的回归树生成预测区间?
据我了解,回归树根据叶节点的平均值对响应进行建模。我不知道如何从模型中获取叶节点的方差,但我想做的是使用叶节点的均值和方差进行模拟以获得预测区间。
Predict.rpart() 没有给出间隔选项。
示例: 我用鸢尾花数据拟合一棵树,但预测没有选项,"interval"
> r1 <- rpart(Sepal.Length ~ ., cp = 0.001, data = iris[1:nrow(iris)-1,])
> predict(r1,newdata=iris[nrow(iris),],type = "interval")
Error in match.arg(type) :
'arg' should be one of “vector”, “prob”, “class”, “matrix”
我不清楚置信区间对回归树意味着什么,因为它们不是线性模型等经典统计模型。我主要看到两种用途:表征树的确定性或表征树的每片叶子的预测精度。以下是每种可能性的答案。
表征树的确定性
如果您正在寻找拆分节点的置信度值,那么 party
会直接提供该值,因为它使用排列测试并统计确定哪些变量最重要以及附加到每个拆分的 p 值。如 here 所述,party
的 ctree
功能明显优于 rpart
。
回归树叶集的置信区间
第三,如果您正在寻找每片叶子中值的区间置信度,那么叶子中观测值的 [0.025,0.975] 分位数区间很可能就是您要寻找的。 party
中的默认图在显示每个叶的输出值的箱线图时采用类似的方法:
library("party")
r2 <- ctree(Sepal.Length ~ .,data=iris)
plot(r2)
检索相应的间隔可以简单地通过以下方式完成:
iris$leaf <- predict(r2, type="node")
CIleaf <- aggregate(iris$Sepal.Length,
by=list(leaf=iris$leaf),
quantile,
prob=c(0.025, 0.25, 0.75, 0.975))
而且很容易形象化:
plot(as.factor(CIleaf$leaf), CIleaf[, 2],
ylab="Sepal length", xlab="Regression tree leaf")
legend("bottomright",
c(" 0.975 quantile", " 0.75 quantile", " mean",
" 0.25 quantile", " 0.025 quantile"),
pch=c("-", "_", "_", "_", "-"),
pt.lwd=0.5, pt.cex=c(1, 1, 2, 1, 1), xjust=1)
也许一个选项是您的训练数据的简单 bootstrap?
library(rpart)
library(boot)
trainData <- iris[-150L, ]
predictData <- iris[150L, ]
rboot <- boot(trainData, function(data, idx) {
bootstrapData <- data[idx, ]
r1 <- rpart(Sepal.Length ~ ., bootstrapData, cp = 0.001)
predict(r1, newdata = predictData)
}, 1000L)
quantile(rboot$t, c(0.025, 0.975))
2.5% 97.5%
5.871393 6.766842
如何从使用 rpart 拟合的回归树生成预测区间?
据我了解,回归树根据叶节点的平均值对响应进行建模。我不知道如何从模型中获取叶节点的方差,但我想做的是使用叶节点的均值和方差进行模拟以获得预测区间。
Predict.rpart() 没有给出间隔选项。
示例: 我用鸢尾花数据拟合一棵树,但预测没有选项,"interval"
> r1 <- rpart(Sepal.Length ~ ., cp = 0.001, data = iris[1:nrow(iris)-1,])
> predict(r1,newdata=iris[nrow(iris),],type = "interval")
Error in match.arg(type) :
'arg' should be one of “vector”, “prob”, “class”, “matrix”
我不清楚置信区间对回归树意味着什么,因为它们不是线性模型等经典统计模型。我主要看到两种用途:表征树的确定性或表征树的每片叶子的预测精度。以下是每种可能性的答案。
表征树的确定性
如果您正在寻找拆分节点的置信度值,那么 party
会直接提供该值,因为它使用排列测试并统计确定哪些变量最重要以及附加到每个拆分的 p 值。如 here 所述,party
的 ctree
功能明显优于 rpart
。
回归树叶集的置信区间
第三,如果您正在寻找每片叶子中值的区间置信度,那么叶子中观测值的 [0.025,0.975] 分位数区间很可能就是您要寻找的。 party
中的默认图在显示每个叶的输出值的箱线图时采用类似的方法:
library("party")
r2 <- ctree(Sepal.Length ~ .,data=iris)
plot(r2)
检索相应的间隔可以简单地通过以下方式完成:
iris$leaf <- predict(r2, type="node")
CIleaf <- aggregate(iris$Sepal.Length,
by=list(leaf=iris$leaf),
quantile,
prob=c(0.025, 0.25, 0.75, 0.975))
而且很容易形象化:
plot(as.factor(CIleaf$leaf), CIleaf[, 2],
ylab="Sepal length", xlab="Regression tree leaf")
legend("bottomright",
c(" 0.975 quantile", " 0.75 quantile", " mean",
" 0.25 quantile", " 0.025 quantile"),
pch=c("-", "_", "_", "_", "-"),
pt.lwd=0.5, pt.cex=c(1, 1, 2, 1, 1), xjust=1)
也许一个选项是您的训练数据的简单 bootstrap?
library(rpart)
library(boot)
trainData <- iris[-150L, ]
predictData <- iris[150L, ]
rboot <- boot(trainData, function(data, idx) {
bootstrapData <- data[idx, ]
r1 <- rpart(Sepal.Length ~ ., bootstrapData, cp = 0.001)
predict(r1, newdata = predictData)
}, 1000L)
quantile(rboot$t, c(0.025, 0.975))
2.5% 97.5%
5.871393 6.766842