如何提高随机森林回归预测结果

How to improve Random forest regression prediction result

我正在使用机器学习随机森林回归进行停车位占用预测。我有6个特征,我尝试实现随机森林模型但结果并不好,因为我对此很陌生我不知道什么样的模型适合这种问题。我的数据集很大,有 4700 万行。我也使用过随机搜索简历,但我无法改进模型。请查看下面的代码,并帮助改进或建议其他模型。

Random forest regression

使用的特征是借助带缓冲区的停车场位置数据提取的。请帮助我改进。

因此,您使用的变量是: ['restaurants_pts','population','res_percent','com_percent','supermarkt_pts','bank_pts']

我看到的是,对于同一个停车场,这些变量不会改变,所以回归只会预测停车场的“平均”占用率。您的问题的关键部分之一似乎是下午 5 点和凌晨 4 点的入住率不一样...

我建议您处理一个时间变量(例如:到达)以便它可用。 模型本身无法理解变量,但您可以对其进行处理以使用它创建类别。例如,您进行仅选择变量的 HOUR 的预处理,然后使用它进行分类(每小时作为一个类别,或更大的类别,如 ['noon - 6am'、'6am - 10am'、'10am - 2pm ', '下午 2 点 - 6 点', '下午 6 点 - 中午'])