randomForestSRC - 每位患者的累积风险
randomForestSRC - cumulative hazard per patient
我想使用随机生存森林来预测每个患者的累积风险,并通过选择累积风险最小的治疗来预测治疗。我想我很接近,但我不确定 randomForestSRC
包中的输出之一是什么。
我使用的数据是GBSG2
乳腺癌数据。患者要么接受激素治疗,要么不接受。
到目前为止,这是我的代码
#load data
library(TH.data)
data(GBSG2)
#test and train
smp_size <- floor(0.75 * nrow(GBSG2))
set.seed(123)
train_ind <- sample(seq_len(nrow(GBSG2)), size = smp_size)
train <- GBSG2[train_ind, ]
test <- GBSG2[-train_ind, ]
#rsf fit
library(randomForestSRC)
rf.fit <- rfsrc(formula = Surv(time,cens)~., ntree = 100,
data=train)
#rsf predict
rf.pred <- predict(rf.fit, test)
#rsf cumulative hazard
rf.pred$chf
我对输出有点困惑。我假设对于每个患者,我都会有治疗与非治疗的累积风险。我不确定为什么每个病人都有四个值。
rf.pred$chf 的维度将为 [rf.pred$n] x [rf.pred$time.interest]。有关相关终端节点统计信息和集合的信息,请参阅我们 GitHub 页面上的理论和规范部分:
我想使用随机生存森林来预测每个患者的累积风险,并通过选择累积风险最小的治疗来预测治疗。我想我很接近,但我不确定 randomForestSRC
包中的输出之一是什么。
我使用的数据是GBSG2
乳腺癌数据。患者要么接受激素治疗,要么不接受。
到目前为止,这是我的代码
#load data
library(TH.data)
data(GBSG2)
#test and train
smp_size <- floor(0.75 * nrow(GBSG2))
set.seed(123)
train_ind <- sample(seq_len(nrow(GBSG2)), size = smp_size)
train <- GBSG2[train_ind, ]
test <- GBSG2[-train_ind, ]
#rsf fit
library(randomForestSRC)
rf.fit <- rfsrc(formula = Surv(time,cens)~., ntree = 100,
data=train)
#rsf predict
rf.pred <- predict(rf.fit, test)
#rsf cumulative hazard
rf.pred$chf
我对输出有点困惑。我假设对于每个患者,我都会有治疗与非治疗的累积风险。我不确定为什么每个病人都有四个值。
rf.pred$chf 的维度将为 [rf.pred$n] x [rf.pred$time.interest]。有关相关终端节点统计信息和集合的信息,请参阅我们 GitHub 页面上的理论和规范部分: