在 sklearn 集成方法中解释 feature_importances_
Interpreting feature_importances_ in sklearn ensamble methods
预测后,feature_importances_
(特别是 GradientBoostingClassifier
,但其他方法可能存在)保持特征重要性。根据文档,越高,该功能越重要。
你知道返回的数字是什么意思吗?
我得到的值介于 0.02 到 10^-6 或 0 之间。
如果一个特征的重要性为 0.02,那么它在所有特征中的重要性为 2%,但这与预测准确性或预测相关性有何关系?我可以解释这个数字并了解删除此类功能将如何影响预测吗?
Gilles Louppe,sklearn 集成和树模块的主要作者,对问题 here.
写了一个很好的回复
有不同的方法可以量化决策树中的节点如何帮助将传入的数据集划分为具有输出 classes 的块,这些块的累积预测性比拆分前更高。一种这样的度量是 gini importance,它是在节点处拆分的数据集提供的输出 class 杂质减少的度量。这个度量,根据使用该特征实际分割数据集的行数加权,并在集合中的所有决策树上取平均值,确定 sklearn 中的 feature_importance_。
预测后,feature_importances_
(特别是 GradientBoostingClassifier
,但其他方法可能存在)保持特征重要性。根据文档,越高,该功能越重要。
你知道返回的数字是什么意思吗?
我得到的值介于 0.02 到 10^-6 或 0 之间。
如果一个特征的重要性为 0.02,那么它在所有特征中的重要性为 2%,但这与预测准确性或预测相关性有何关系?我可以解释这个数字并了解删除此类功能将如何影响预测吗?
Gilles Louppe,sklearn 集成和树模块的主要作者,对问题 here.
写了一个很好的回复有不同的方法可以量化决策树中的节点如何帮助将传入的数据集划分为具有输出 classes 的块,这些块的累积预测性比拆分前更高。一种这样的度量是 gini importance,它是在节点处拆分的数据集提供的输出 class 杂质减少的度量。这个度量,根据使用该特征实际分割数据集的行数加权,并在集合中的所有决策树上取平均值,确定 sklearn 中的 feature_importance_。