在插入符号的交叉验证期间计算模型校准?
Calculate model calibration during cross-validation in caret?
第一次发帖,如有新手错误请见谅
我正在使用 R 中的插入符包进行 class化。我正在对训练集使用重复的 10 折交叉验证来拟合一些模型(GBM、线性 SVM、NB、LDA)。使用自定义 trainControl,caret 甚至为我提供了一系列模型性能指标,如 ROC、Spec/sens、Kappa、测试折叠的准确性。那真是太棒了。我还想要一个指标:某种模型校准指标。
我注意到插入符号内有一个 function 可以创建校准图来估计模型性能在数据部分之间的一致性。在交叉验证的模型构建过程中,是否可以让 caret 为每个测试折叠计算这个?或者它只能应用于我们正在预测的一些新的保留数据吗?
对于某些情况,目前我有这样的事情:
fitControl <- trainControl(method = "repeatedcv", repeats=2, number = 10, classProbs = TRUE, summaryFunction = custom.summary)
gbmGrid <- expand.grid(.interaction.depth = c(1,2,3),.n.trees = seq(100,800,by=100),.shrinkage = c(0.01))
gbmModel <- train(y= train_target, x = data.frame(t_train_predictors),
method = "gbm",
trControl = fitControl,
tuneGrid = gbmGrid,
verbose = FALSE)
如果有帮助,我将使用 ~25 个数值预测变量和 N=2,200,预测两个 class 因子。
非常感谢任何help/advice。
亚当
calibration
函数接受您提供的任何数据。您可以从 train
子对象 pred
:
中获取重采样值
> set.seed(1)
> dat <- twoClassSim(2000)
>
> set.seed(2)
> mod <- train(Class ~ ., data = dat,
+ method = "lda",
+ trControl = trainControl(savePredictions = TRUE,
+ classProbs = TRUE))
>
> str(mod$pred)
'data.frame': 18413 obs. of 7 variables:
$ pred : Factor w/ 2 levels "Class1","Class2": 1 2 2 1 1 2 1 1 2 1 ...
$ obs : Factor w/ 2 levels "Class1","Class2": 1 2 2 1 1 2 1 1 2 2 ...
$ Class1 : num 0.631 0.018 0.138 0.686 0.926 ...
$ Class2 : num 0.369 0.982 0.8616 0.3139 0.0744 ...
$ rowIndex : int 1 3 4 10 12 13 18 22 25 27 ...
$ parameter: Factor w/ 1 level "none": 1 1 1 1 1 1 1 1 1 1 ...
$ Resample : chr "Resample01" "Resample01" "Resample01" "Resample01" ...
那么你可以使用:
> cal <- calibration(obs ~ Class1, data = mod$pred)
> xyplot(cal)
请记住,对于许多重采样方法,单个训练集实例将被保留多次:
> table(table(mod$pred$rowIndex))
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
2 11 30 77 135 209 332 314 307 231 185 93 48 16 6 4
如果你愿意,你可以平均每个 rowIndex
的 class 概率。
最大
第一次发帖,如有新手错误请见谅
我正在使用 R 中的插入符包进行 class化。我正在对训练集使用重复的 10 折交叉验证来拟合一些模型(GBM、线性 SVM、NB、LDA)。使用自定义 trainControl,caret 甚至为我提供了一系列模型性能指标,如 ROC、Spec/sens、Kappa、测试折叠的准确性。那真是太棒了。我还想要一个指标:某种模型校准指标。
我注意到插入符号内有一个 function 可以创建校准图来估计模型性能在数据部分之间的一致性。在交叉验证的模型构建过程中,是否可以让 caret 为每个测试折叠计算这个?或者它只能应用于我们正在预测的一些新的保留数据吗?
对于某些情况,目前我有这样的事情:
fitControl <- trainControl(method = "repeatedcv", repeats=2, number = 10, classProbs = TRUE, summaryFunction = custom.summary)
gbmGrid <- expand.grid(.interaction.depth = c(1,2,3),.n.trees = seq(100,800,by=100),.shrinkage = c(0.01))
gbmModel <- train(y= train_target, x = data.frame(t_train_predictors),
method = "gbm",
trControl = fitControl,
tuneGrid = gbmGrid,
verbose = FALSE)
如果有帮助,我将使用 ~25 个数值预测变量和 N=2,200,预测两个 class 因子。
非常感谢任何help/advice。 亚当
calibration
函数接受您提供的任何数据。您可以从 train
子对象 pred
:
> set.seed(1)
> dat <- twoClassSim(2000)
>
> set.seed(2)
> mod <- train(Class ~ ., data = dat,
+ method = "lda",
+ trControl = trainControl(savePredictions = TRUE,
+ classProbs = TRUE))
>
> str(mod$pred)
'data.frame': 18413 obs. of 7 variables:
$ pred : Factor w/ 2 levels "Class1","Class2": 1 2 2 1 1 2 1 1 2 1 ...
$ obs : Factor w/ 2 levels "Class1","Class2": 1 2 2 1 1 2 1 1 2 2 ...
$ Class1 : num 0.631 0.018 0.138 0.686 0.926 ...
$ Class2 : num 0.369 0.982 0.8616 0.3139 0.0744 ...
$ rowIndex : int 1 3 4 10 12 13 18 22 25 27 ...
$ parameter: Factor w/ 1 level "none": 1 1 1 1 1 1 1 1 1 1 ...
$ Resample : chr "Resample01" "Resample01" "Resample01" "Resample01" ...
那么你可以使用:
> cal <- calibration(obs ~ Class1, data = mod$pred)
> xyplot(cal)
请记住,对于许多重采样方法,单个训练集实例将被保留多次:
> table(table(mod$pred$rowIndex))
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
2 11 30 77 135 209 332 314 307 231 185 93 48 16 6 4
如果你愿意,你可以平均每个 rowIndex
的 class 概率。
最大