如何证明使用具有更高 RMSE (cv=10) 的预测模型是合理的

How to justify using a prediction model with higher RMSE (cv=10)

我正在研究预测模型。为了获得最佳模型,我使用 cross_val_score 来比较 CV=10 和 RMSE 的不同模型,我得到的结果如下:

                                       Lasso      SVR        NuSVR  GradientBoostingRegressor   RandomForestRegressor
Modeling Methods(15 fact and FR)    0.748253    0.779394    0.776631    0.796389                  0.792362

由此可见,基于 RMSE 的最佳模型显然是 Lasso,但我尝试用它来预测看不见的数据,它对每种情况只给出一个数字,如 31.07。而 GradientBoostingRegressor,给出了所有模型中最好的预测。

现在我想知道如何证明采用 GradientBoostingRegressor 模型是合理的,同时它具有更高的 RMSE?

我的样本未见数据与 Lasso 的预测

 Disaster Number_left       county_state  Total Destroyed  pred_TD_actual  \
0          279-17          Camden_MO                8       31.043349   
1          279-17            Cole_MO               13       31.043349   
2          279-17            Dent_MO                3       31.043349   

StratifiedKFold 帮我解决了这个问题,即在应用交叉验证之前打乱数据。现在,具有最少 cv 分数的模型也可以根据需要提供良好的预测