如何证明使用具有更高 RMSE (cv=10) 的预测模型是合理的
How to justify using a prediction model with higher RMSE (cv=10)
我正在研究预测模型。为了获得最佳模型,我使用 cross_val_score 来比较 CV=10 和 RMSE 的不同模型,我得到的结果如下:
Lasso SVR NuSVR GradientBoostingRegressor RandomForestRegressor
Modeling Methods(15 fact and FR) 0.748253 0.779394 0.776631 0.796389 0.792362
由此可见,基于 RMSE 的最佳模型显然是 Lasso,但我尝试用它来预测看不见的数据,它对每种情况只给出一个数字,如 31.07。而 GradientBoostingRegressor,给出了所有模型中最好的预测。
现在我想知道如何证明采用 GradientBoostingRegressor 模型是合理的,同时它具有更高的 RMSE?
我的样本未见数据与 Lasso 的预测
Disaster Number_left county_state Total Destroyed pred_TD_actual \
0 279-17 Camden_MO 8 31.043349
1 279-17 Cole_MO 13 31.043349
2 279-17 Dent_MO 3 31.043349
StratifiedKFold 帮我解决了这个问题,即在应用交叉验证之前打乱数据。现在,具有最少 cv 分数的模型也可以根据需要提供良好的预测
我正在研究预测模型。为了获得最佳模型,我使用 cross_val_score 来比较 CV=10 和 RMSE 的不同模型,我得到的结果如下:
Lasso SVR NuSVR GradientBoostingRegressor RandomForestRegressor
Modeling Methods(15 fact and FR) 0.748253 0.779394 0.776631 0.796389 0.792362
由此可见,基于 RMSE 的最佳模型显然是 Lasso,但我尝试用它来预测看不见的数据,它对每种情况只给出一个数字,如 31.07。而 GradientBoostingRegressor,给出了所有模型中最好的预测。
现在我想知道如何证明采用 GradientBoostingRegressor 模型是合理的,同时它具有更高的 RMSE?
我的样本未见数据与 Lasso 的预测
Disaster Number_left county_state Total Destroyed pred_TD_actual \
0 279-17 Camden_MO 8 31.043349
1 279-17 Cole_MO 13 31.043349
2 279-17 Dent_MO 3 31.043349
StratifiedKFold 帮我解决了这个问题,即在应用交叉验证之前打乱数据。现在,具有最少 cv 分数的模型也可以根据需要提供良好的预测