随机森林比其他方法表现更好
Random Forest performing much better than other methods
在评估 SVM、RF 和 DT (max_depth = 3) 的性能时,我使用 RF 模型获得了非常出色的结果。建模的数据是真实世界的数据。它们都是使用分层交叉验证进行评估的,因为数据集是不平衡的。
对于之前看到的 4 个不同的 类,我得到了精确度、召回率和 F1 的这些分数。
最初,数据集包含以下 values_counts 用于如下所示的 4 类:
- 进料故障-(差异P-set/P-actual): 4 098 个数据样本
- 进料故障-(进料安全电路故障): 383个数据样本
- 发电机加热: 228 668个数据样本
- 其他: 51 966 851 个样本
RF 怎么会比 SVM 和 DT 好这么多?
提前致谢!
这些结果完全有道理!随机森林是一种比决策树更强大的算法,因为它基本上是 DT 的集合。当涉及到对未见数据的泛化时,集成(更多模型的组合)在机器学习中是出了名的强大。在决策树或 SVM 过度拟合的情况下,随机森林通常表现相对较好,因为在内部许多看到所有不同特征集的 DT 正在为结果投票。
在评估 SVM、RF 和 DT (max_depth = 3) 的性能时,我使用 RF 模型获得了非常出色的结果。建模的数据是真实世界的数据。它们都是使用分层交叉验证进行评估的,因为数据集是不平衡的。
对于之前看到的 4 个不同的 类,我得到了精确度、召回率和 F1 的这些分数。
最初,数据集包含以下 values_counts 用于如下所示的 4 类:
- 进料故障-(差异P-set/P-actual): 4 098 个数据样本
- 进料故障-(进料安全电路故障): 383个数据样本
- 发电机加热: 228 668个数据样本
- 其他: 51 966 851 个样本
RF 怎么会比 SVM 和 DT 好这么多?
提前致谢!
这些结果完全有道理!随机森林是一种比决策树更强大的算法,因为它基本上是 DT 的集合。当涉及到对未见数据的泛化时,集成(更多模型的组合)在机器学习中是出了名的强大。在决策树或 SVM 过度拟合的情况下,随机森林通常表现相对较好,因为在内部许多看到所有不同特征集的 DT 正在为结果投票。