xgBoost 相对特征重要性是否随测试集中的数据点而变化?
Does xgBoost's relative feature importance vary with datapoints in test set?
我正在处理二进制 classification 数据集并将 xgBoost 模型应用于问题。模型准备就绪后,我绘制特征重要性和底层随机森林产生的其中一棵树。请在下面找到这些图。
问题
- 如果我采用 10 个数据点的测试集,在计算该数据点 predict_proba 分数时,特征的重要性会因数据点而异吗?
- 类比 CNNs class 激活图随数据点的不同而不同,当模型在多个数据点上运行时,每个特征的顺序和相对重要性是保持不变还是变化?
“数据点”是什么意思?数据点是单个 case/subject/patient/etc 吗?如果是这样;
您绘制的特征重要性图和树都只与模型有关,它们与测试集无关。找出哪些特征对于对测试集中的特定 subject/case/datapoint 进行分类很重要是一项更具挑战性的任务(参见 XGBoostExplainer / https://medium.com/applied-data-science/new-r-package-the-xgboost-explainer-51dd7d1aa211)。
每个subject/case/datapoint(见上文)每个特征的排序和相对重要性不同,xgboost中没有'class activation map' - 所有数据都经过分析和数据被视为 'not important' 不参与最终决定。
编辑
XGBoostExplainer 的进一步示例:
我正在处理二进制 classification 数据集并将 xgBoost 模型应用于问题。模型准备就绪后,我绘制特征重要性和底层随机森林产生的其中一棵树。请在下面找到这些图。
问题
- 如果我采用 10 个数据点的测试集,在计算该数据点 predict_proba 分数时,特征的重要性会因数据点而异吗?
- 类比 CNNs class 激活图随数据点的不同而不同,当模型在多个数据点上运行时,每个特征的顺序和相对重要性是保持不变还是变化?
“数据点”是什么意思?数据点是单个 case/subject/patient/etc 吗?如果是这样;
您绘制的特征重要性图和树都只与模型有关,它们与测试集无关。找出哪些特征对于对测试集中的特定 subject/case/datapoint 进行分类很重要是一项更具挑战性的任务(参见 XGBoostExplainer / https://medium.com/applied-data-science/new-r-package-the-xgboost-explainer-51dd7d1aa211)。
每个subject/case/datapoint(见上文)每个特征的排序和相对重要性不同,xgboost中没有'class activation map' - 所有数据都经过分析和数据被视为 'not important' 不参与最终决定。
编辑
XGBoostExplainer 的进一步示例: