xgBoost 相对特征重要性是否随测试集中的数据点而变化?

Does xgBoost's relative feature importance vary with datapoints in test set?

我正在处理二进制 classification 数据集并将 xgBoost 模型应用于问题。模型准备就绪后,我绘制特征重要性和底层随机森林产生的其中一棵树。请在下面找到这些图。

问题

“数据点”是什么意思?数据点是单个 case/subject/patient/etc 吗?如果是这样;

  1. 您绘制的特征重要性图和树都只与模型有关,它们与测试集无关。找出哪些特征对于对测试集中的特定 subject/case/datapoint 进行分类很重要是一项更具挑战性的任务(参见 XGBoostExplainer / https://medium.com/applied-data-science/new-r-package-the-xgboost-explainer-51dd7d1aa211)。

  2. 每个subject/case/datapoint(见上文)每个特征的排序和相对重要性不同,xgboost中没有'class activation map' - 所有数据都经过分析和数据被视为 'not important' 不参与最终决定。

编辑

XGBoostExplainer 的进一步示例: