R:如何使用rpart中的子集选项?

R: how to use the subset option in rpart?

help(rpart) 的文档中,有一个 subset 选项,它是一个 "optional expression saying that only a subset of the rows of the data should be used in the fit."

我该如何使用这个选项?

library(rpart)
fit <- rpart(Kyphosis ~ Age + Number + Start,
             data = kyphosis,
             subset = sample(1:nrow(kyphosis), 20))

在上面的代码中,我从 kyphosis 数据中随机抽取了 20 个行索引。这是正确的用法吗?

是的,这没问题。使用 subset,您还可以:

  • 明确选择 data.frame 的行:subset=1:21
  • 根据变量值选择行:subset=(Age<50)