随机森林回归对这种回归问题有好处吗?

Is Random Forest regression is good for this kind of regression problem?

我正在研究车辆占用预测,我对此非常陌生,我使用随机森林回归来预测占用值。

Jupyter notebook_Random forest

我有大约 4800 万行,我已经使用所有数据来预测入住率,因为人口和入住率由于较高的数字而被标准化,我已经预测到了。我确定模型不好,我如何解释 RMSE 和 MAE 的结果。此外,该图显示它预测得不好,我是否以正确的方式预测车辆的占用率。

请帮我解决以下问题,

  1. 随机森林回归是解决这个问题的好方法吗?
  2. 如何改进模型结果?
  3. 如何从结果解读结果

您得到的 0.002175863553610834 的 RMSE 非常接近于零。所以,我们可以说你有一个很好的模型。我认为该模型不需要进一步改进。如果你还想改进它,我认为你应该把算法改成XGBoost,并使用正则化和早停来避免过拟合。

from xgboost import XGBRegressor

model = XGBRegressor(n_estimators = 3000, learning_rate = 0.01, reg_alpha = 2, reg_lambda = 1, n_jobs = -1, random_state = 34, verbosity = 0)
    
evalset = [(X_train, y_train), (X_test, y_test)]
model.fit(X_train, y_train, eval_metric = 'rmse', eval_set = evalset, early_stopping_rounds = 5)

我们向您推荐了基于 XGBoost 的回归器,因此您也可以尝试基于 LightGBM 的回归器:https://lightgbm.readthedocs.io/en/latest/pythonapi/lightgbm.LGBMRegressor.html

  1. 随机森林回归是解决这个问题的好方法吗?

    ->模型只是一个工具,当然可以用。但是适不适合,谁也不好回答,因为我们没有研究过数据的分布。建议可以尝试逻辑回归、支持向量机回归等

  2. 如何改进模型结果?

    -> 我有几个改进建议: 1.Do 不确认y值列是否有极值就不要标准化。 2.When计算RMSE和Mae,使用原来的y值。 3.Deeply 了解业务逻辑并添加新功能。 4.Learn博客上关于数据处理和特征工程的内容。

  3. 如何从结果解读结果

    -> 不好的结果并不一定代表没有价值。你需要比较这个模型是否比现有的方法更好,是否产生了更多的经济价值。比如error就是loss,accuracy就是gain。

希望这些可以帮到你。