随机森林回归对这种回归问题有好处吗?
Is Random Forest regression is good for this kind of regression problem?
我正在研究车辆占用预测,我对此非常陌生,我使用随机森林回归来预测占用值。
Jupyter notebook_Random forest
我有大约 4800 万行,我已经使用所有数据来预测入住率,因为人口和入住率由于较高的数字而被标准化,我已经预测到了。我确定模型不好,我如何解释 RMSE 和 MAE 的结果。此外,该图显示它预测得不好,我是否以正确的方式预测车辆的占用率。
请帮我解决以下问题,
- 随机森林回归是解决这个问题的好方法吗?
- 如何改进模型结果?
- 如何从结果解读结果
您得到的 0.002175863553610834
的 RMSE 非常接近于零。所以,我们可以说你有一个很好的模型。我认为该模型不需要进一步改进。如果你还想改进它,我认为你应该把算法改成XGBoost
,并使用正则化和早停来避免过拟合。
from xgboost import XGBRegressor
model = XGBRegressor(n_estimators = 3000, learning_rate = 0.01, reg_alpha = 2, reg_lambda = 1, n_jobs = -1, random_state = 34, verbosity = 0)
evalset = [(X_train, y_train), (X_test, y_test)]
model.fit(X_train, y_train, eval_metric = 'rmse', eval_set = evalset, early_stopping_rounds = 5)
我们向您推荐了基于 XGBoost 的回归器,因此您也可以尝试基于 LightGBM 的回归器:https://lightgbm.readthedocs.io/en/latest/pythonapi/lightgbm.LGBMRegressor.html
随机森林回归是解决这个问题的好方法吗?
->模型只是一个工具,当然可以用。但是适不适合,谁也不好回答,因为我们没有研究过数据的分布。建议可以尝试逻辑回归、支持向量机回归等
如何改进模型结果?
-> 我有几个改进建议: 1.Do 不确认y值列是否有极值就不要标准化。 2.When计算RMSE和Mae,使用原来的y值。 3.Deeply 了解业务逻辑并添加新功能。 4.Learn博客上关于数据处理和特征工程的内容。
如何从结果解读结果
-> 不好的结果并不一定代表没有价值。你需要比较这个模型是否比现有的方法更好,是否产生了更多的经济价值。比如error就是loss,accuracy就是gain。
希望这些可以帮到你。
我正在研究车辆占用预测,我对此非常陌生,我使用随机森林回归来预测占用值。
Jupyter notebook_Random forest
我有大约 4800 万行,我已经使用所有数据来预测入住率,因为人口和入住率由于较高的数字而被标准化,我已经预测到了。我确定模型不好,我如何解释 RMSE 和 MAE 的结果。此外,该图显示它预测得不好,我是否以正确的方式预测车辆的占用率。
请帮我解决以下问题,
- 随机森林回归是解决这个问题的好方法吗?
- 如何改进模型结果?
- 如何从结果解读结果
您得到的 0.002175863553610834
的 RMSE 非常接近于零。所以,我们可以说你有一个很好的模型。我认为该模型不需要进一步改进。如果你还想改进它,我认为你应该把算法改成XGBoost
,并使用正则化和早停来避免过拟合。
from xgboost import XGBRegressor
model = XGBRegressor(n_estimators = 3000, learning_rate = 0.01, reg_alpha = 2, reg_lambda = 1, n_jobs = -1, random_state = 34, verbosity = 0)
evalset = [(X_train, y_train), (X_test, y_test)]
model.fit(X_train, y_train, eval_metric = 'rmse', eval_set = evalset, early_stopping_rounds = 5)
我们向您推荐了基于 XGBoost 的回归器,因此您也可以尝试基于 LightGBM 的回归器:https://lightgbm.readthedocs.io/en/latest/pythonapi/lightgbm.LGBMRegressor.html
随机森林回归是解决这个问题的好方法吗?
->模型只是一个工具,当然可以用。但是适不适合,谁也不好回答,因为我们没有研究过数据的分布。建议可以尝试逻辑回归、支持向量机回归等
如何改进模型结果?
-> 我有几个改进建议: 1.Do 不确认y值列是否有极值就不要标准化。 2.When计算RMSE和Mae,使用原来的y值。 3.Deeply 了解业务逻辑并添加新功能。 4.Learn博客上关于数据处理和特征工程的内容。
如何从结果解读结果
-> 不好的结果并不一定代表没有价值。你需要比较这个模型是否比现有的方法更好,是否产生了更多的经济价值。比如error就是loss,accuracy就是gain。
希望这些可以帮到你。