Caret - 预测训练集的表型标签?

Caret - predict phenotype labels for the training set?

我有 200 名患者被分配到具有 2:1 比例的训练和验证集。我将插入符号与 GLMNET 一起使用来训练允许预测二元表型的分类器:

splitSample <- createDataPartition(phenotype, p = 0.66, list = FALSE)
training_expression <- expression[splitSample,]
training_phenotype <- phenotype[splitSample]
validation_expression <- expression[-splitSample,]
validation_phenotype <- phenotype[-splitSample]

eGrid <- expand.grid(.alpha=seq(0,1,by=0.1),.lambda=seq(0,1,by=0.01))
Control <- trainControl(number=10, repeats=1, verboseIter=FALSE, classProbs=TRUE, summaryFunction=twoClassSummary, method="cv") 
netFit <- train(x =training_expression, y = training_phenotype,method = "glmnet", metric = "ROC", tuneGrid=eGrid,trControl = Control)
netFitPerf <- getTrainPerf(netFit) 

predict_validation <- predict(netFit, newdata = validation_expression)
confusionMatrix(predict_validation,validation_phenotype)

"predict_validation" 包含验证集中每个患者的预测表型标签 - 是否有任何有效的方法也可以获得训练集中每个患者的 "predicted" 表型标签,即最终预测所有可用患者的表型标签(这对于进一步执行统计分析很重要,例如将所有患者的预测表型标签与其他参数(例如它与年龄或生存率等的相关性)进行比较)?有什么想法吗?

感谢您的帮助!

使用训练集中 提出的 预测很重要;只是重新预测它们会导致过度拟合值。

如果您使用选项 trainControl(savePredictions = "final")train 对象将有一个名为 pred 的元素,其中包含保留预测。

最大