从 R 中的交叉验证(训练)数据绘制 ROC 曲线
Plot ROC curve from Cross-Validation (training) data in R
我想知道是否有办法根据 caret
包生成的 SVM-RFE 模型的交叉验证数据绘制平均 ROC 曲线。
我的结果是:
Recursive feature selection
Outer resampling method: Cross-Validated (10 fold, repeated 5 times)
Resampling performance over subset size:
Variables ROC Sens Spec Accuracy Kappa ROCSD SensSD SpecSD AccuracySD KappaSD Selected
1 0.6911 0.0000 1.0000 0.5900 0.0000 0.2186 0.0000 0.0000 0.0303 0.0000
2 0.7600 0.3700 0.8067 0.6280 0.1807 0.1883 0.3182 0.2139 0.1464 0.3295
3 0.7267 0.4233 0.8667 0.6873 0.3012 0.2020 0.3216 0.1905 0.1516 0.3447
4 0.6989 0.3867 0.8600 0.6680 0.2551 0.2130 0.3184 0.1793 0.1458 0.3336
5 0.7000 0.3367 0.8600 0.6473 0.2006 0.2073 0.3359 0.1793 0.1588 0.3672
6 0.7167 0.3833 0.8200 0.6427 0.2105 0.1909 0.3338 0.2539 0.1682 0.3639
7 0.7122 0.3767 0.8333 0.6487 0.2169 0.1784 0.3226 0.2048 0.1642 0.3702
8 0.7144 0.4233 0.7933 0.6440 0.2218 0.2017 0.3454 0.2599 0.1766 0.3770
9 0.8356 0.6533 0.7867 0.7300 0.4363 0.1706 0.3415 0.2498 0.1997 0.4209
10 0.8811 0.6867 0.8200 0.7647 0.5065 0.1650 0.3134 0.2152 0.1949 0.4053 *
11 0.8700 0.6933 0.8133 0.7627 0.5046 0.1697 0.3183 0.2147 0.1971 0.4091
12 0.8678 0.6967 0.7733 0.7407 0.4682 0.1579 0.3153 0.2559
...
The top 5 variables (out of 10):
SumAverage_GLCM_R1SC4NG2, Variance_GLCM_R1SC4NG2, HGZE_GLSZM_R1SC4NG2, LGZE_GLSZM_R1SC4NG2, SZLGE_GLSZM_R1SC4NG2
我已经尝试过这里提到的解决方案:
optSize <- svmRFE_NG2$optsize
selectedIndices <- svmRFE_NG2$pred$Variables == optSize
plot.roc(svmRFE_NG2$pred$obs[selectedIndices],
svmRFE_NG2$pred$LUNG[selectedIndices])
但是这个方案好像不行(得出的AUC值相差很大)。我已经把训练过程的结果分成了50个交叉验证集,就像前面的回答中提到的,但我不知道下一步该怎么做。
resamples<-split(svmRFE_NG2$pred,svmRFE_NG2$pred$Variables)
resamplesFOLD<-split(resamples[[optSize]],resamples[[optSize]]$Resample)
有什么想法吗?
正如您已经做的那样,您可以 a) 在 caret::train
的 trainControl
参数中启用 savePredictions = T
,然后,b) 从经过训练的模型对象中,使用 pred
变量 - 包含对所有分区和重新采样的所有预测 - 以计算您想要查看的任何 ROC 曲线。您现在有多个选项可以选择哪个 ROC,例如:
您可以查看所有分区的所有预测并立即重新采样:
plot(roc(predictor = modelObject$pred$CLASSNAME, response = modelObject$pred$obs))
或者您可以在 单个分区 and/or 重采样 上执行此操作(这是您在上面尝试过的)。以下示例计算每个分区 和 重采样的 ROC 曲线,因此 10 个分区和 5 次重复将产生 50 条 ROC 曲线:
library(plyr)
l_ply(split(modelObject$pred, modelObject$pred$Resample), function(d) {
plot(roc(predictor = d$CLASSNAME, response = d$obs))
})
根据您的数据和模型,后者 将 给您生成的 ROC 曲线和 AUC 值带来一定的差异。您可以在为您的各个分区和重新采样计算的 AUC
和 SD
值 caret
中看到相同的方差,因此这是来自您的数据和模型并且是正确的。
顺便说一句:我使用 pROC::roc
函数来计算上面的示例,但您可以在这里使用任何合适的函数。而且,当使用 caret::train
时,无论模型类型如何,获得的 ROC 总是相同的。
我知道这个 post 是旧的,但我有同样的问题试图理解为什么在从每个重采样计算 ROC 值时以及在使用所有预测和重采样计算 ROC 值时得到不同的结果立刻。哪种计算ROC的方法是正确的?
(很抱歉 post 将此作为新答案,但我不允许 post 发表评论。)
我想知道是否有办法根据 caret
包生成的 SVM-RFE 模型的交叉验证数据绘制平均 ROC 曲线。
我的结果是:
Recursive feature selection
Outer resampling method: Cross-Validated (10 fold, repeated 5 times)
Resampling performance over subset size:
Variables ROC Sens Spec Accuracy Kappa ROCSD SensSD SpecSD AccuracySD KappaSD Selected
1 0.6911 0.0000 1.0000 0.5900 0.0000 0.2186 0.0000 0.0000 0.0303 0.0000
2 0.7600 0.3700 0.8067 0.6280 0.1807 0.1883 0.3182 0.2139 0.1464 0.3295
3 0.7267 0.4233 0.8667 0.6873 0.3012 0.2020 0.3216 0.1905 0.1516 0.3447
4 0.6989 0.3867 0.8600 0.6680 0.2551 0.2130 0.3184 0.1793 0.1458 0.3336
5 0.7000 0.3367 0.8600 0.6473 0.2006 0.2073 0.3359 0.1793 0.1588 0.3672
6 0.7167 0.3833 0.8200 0.6427 0.2105 0.1909 0.3338 0.2539 0.1682 0.3639
7 0.7122 0.3767 0.8333 0.6487 0.2169 0.1784 0.3226 0.2048 0.1642 0.3702
8 0.7144 0.4233 0.7933 0.6440 0.2218 0.2017 0.3454 0.2599 0.1766 0.3770
9 0.8356 0.6533 0.7867 0.7300 0.4363 0.1706 0.3415 0.2498 0.1997 0.4209
10 0.8811 0.6867 0.8200 0.7647 0.5065 0.1650 0.3134 0.2152 0.1949 0.4053 *
11 0.8700 0.6933 0.8133 0.7627 0.5046 0.1697 0.3183 0.2147 0.1971 0.4091
12 0.8678 0.6967 0.7733 0.7407 0.4682 0.1579 0.3153 0.2559
...
The top 5 variables (out of 10):
SumAverage_GLCM_R1SC4NG2, Variance_GLCM_R1SC4NG2, HGZE_GLSZM_R1SC4NG2, LGZE_GLSZM_R1SC4NG2, SZLGE_GLSZM_R1SC4NG2
我已经尝试过这里提到的解决方案:
optSize <- svmRFE_NG2$optsize
selectedIndices <- svmRFE_NG2$pred$Variables == optSize
plot.roc(svmRFE_NG2$pred$obs[selectedIndices],
svmRFE_NG2$pred$LUNG[selectedIndices])
但是这个方案好像不行(得出的AUC值相差很大)。我已经把训练过程的结果分成了50个交叉验证集,就像前面的回答中提到的,但我不知道下一步该怎么做。
resamples<-split(svmRFE_NG2$pred,svmRFE_NG2$pred$Variables)
resamplesFOLD<-split(resamples[[optSize]],resamples[[optSize]]$Resample)
有什么想法吗?
正如您已经做的那样,您可以 a) 在 caret::train
的 trainControl
参数中启用 savePredictions = T
,然后,b) 从经过训练的模型对象中,使用 pred
变量 - 包含对所有分区和重新采样的所有预测 - 以计算您想要查看的任何 ROC 曲线。您现在有多个选项可以选择哪个 ROC,例如:
您可以查看所有分区的所有预测并立即重新采样:
plot(roc(predictor = modelObject$pred$CLASSNAME, response = modelObject$pred$obs))
或者您可以在 单个分区 and/or 重采样 上执行此操作(这是您在上面尝试过的)。以下示例计算每个分区 和 重采样的 ROC 曲线,因此 10 个分区和 5 次重复将产生 50 条 ROC 曲线:
library(plyr)
l_ply(split(modelObject$pred, modelObject$pred$Resample), function(d) {
plot(roc(predictor = d$CLASSNAME, response = d$obs))
})
根据您的数据和模型,后者 将 给您生成的 ROC 曲线和 AUC 值带来一定的差异。您可以在为您的各个分区和重新采样计算的 AUC
和 SD
值 caret
中看到相同的方差,因此这是来自您的数据和模型并且是正确的。
顺便说一句:我使用 pROC::roc
函数来计算上面的示例,但您可以在这里使用任何合适的函数。而且,当使用 caret::train
时,无论模型类型如何,获得的 ROC 总是相同的。
我知道这个 post 是旧的,但我有同样的问题试图理解为什么在从每个重采样计算 ROC 值时以及在使用所有预测和重采样计算 ROC 值时得到不同的结果立刻。哪种计算ROC的方法是正确的?
(很抱歉 post 将此作为新答案,但我不允许 post 发表评论。)