随机森林比其他方法表现更好

Random Forest performing much better than other methods

在评估 SVM、RF 和 DT (max_depth = 3) 的性能时，我使用 RF 模型获得了非常出色的结果。建模的数据是真实世界的数据。它们都是使用分层交叉验证进行评估的，因为数据集是不平衡的。

对于之前看到的 4 个不同的类，我得到了精确度、召回率和 F1 的这些分数。

最初，数据集包含以下 values_counts 用于如下所示的 4 类：

进料故障-（差异P-set/P-actual）： 4 098 个数据样本
进料故障-（进料安全电路故障）： 383个数据样本
发电机加热： 228 668个数据样本
其他： 51 966 851 个样本

RF 怎么会比 SVM 和 DT 好这么多？

提前致谢！

这些结果完全有道理！随机森林是一种比决策树更强大的算法，因为它基本上是 DT 的集合。当涉及到对未见数据的泛化时，集成（更多模型的组合）在机器学习中是出了名的强大。在决策树或 SVM 过度拟合的情况下，随机森林通常表现相对较好，因为在内部许多看到所有不同特征集的 DT 正在为结果投票。