randomForestSRC - 每位患者的累积风险

Question

我想使用随机生存森林来预测每个患者的累积风险，并通过选择累积风险最小的治疗来预测治疗。我想我很接近，但我不确定 randomForestSRC 包中的输出之一是什么。

我使用的数据是GBSG2乳腺癌数据。患者要么接受激素治疗，要么不接受。

到目前为止，这是我的代码

#load data
library(TH.data)
data(GBSG2)

#test and train
smp_size <- floor(0.75 * nrow(GBSG2))
set.seed(123)
train_ind <- sample(seq_len(nrow(GBSG2)), size = smp_size)
train <- GBSG2[train_ind, ]
test <- GBSG2[-train_ind, ]

#rsf fit
library(randomForestSRC)
rf.fit <- rfsrc(formula = Surv(time,cens)~., ntree = 100,
                          data=train)
#rsf predict
rf.pred <- predict(rf.fit, test)

#rsf cumulative hazard
rf.pred$chf

我对输出有点困惑。我假设对于每个患者，我都会有治疗与非治疗的累积风险。我不确定为什么每个病人都有四个值。

Answer 1

rf.pred$chf 的维度将为 [rf.pred$n] x [rf.pred$time.interest]。有关相关终端节点统计信息和集合的信息，请参阅我们 GitHub 页面上的理论和规范部分：

https://kogalur.github.io/randomForestSRC/

randomForestSRC - 每位患者的累积风险

randomForestSRC - cumulative hazard per patient

r

random-forest

survival-analysis