树木森林的特征重要性

Feature importances with forests of trees

我想找出我的特征的重要性,并想了解森林的运作方式? 据我了解,它使决策树和条形图显示该特征解释了多少方差,这反过来又显示了该特征的重要性。 我还想弄明白图表末尾的线条是什么意思?

Link 方法: http://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html#sphx-glr-auto-examples-ensemble-plot-forest-importances-py

这样理解正确吗?

谢谢

随机森林由许多决策树组成。决策树中的每个节点都是单个特征的条件,旨在将数据集分成两部分,以便相似的响应值最终出现在同一组中。选择(局部)最优条件所依据的度量称为杂质。对于分类,它通常是 Gini 杂质或信息 gain/entropy,而对于回归树,它是方差。因此,在训练树时,可以计算每个特征减少树中加权杂质的程度。对于森林,可以对每个特征的杂质减少进行平均,并根据该度量对特征进行排序。

但是请务必注意,随机森林中的 feature_importances_ 不一定能预测每个特征的正确排名。两个高度相关的特征可能在等级 table 的相反两侧。如果您删除错误排名的特征,这不会影响模型的性能 though.However 这不是了解每个特征重要性的可靠方法。为了绕过这个限制,我使用顺序向后选择。