MLP 和 RF 的变量排名不应该相同吗?

Shouldn't the variables ranking be the same for MLP and RF?

我有一个关于变量重要性排序的问题。 我使用具有 34 个变量的相同数据集构建了 MLP 和 RF 模型,并在类似的测试数据集上实现了相同的精度。正如您在下图中看到的,SHAP 汇总图和 RF VIM 的顶部变量完全不同。 有趣的是,我从 MLP 中移除了排名较低的变量,准确率提高了。然而,RF 结果并没有改变。 这是否意味着 RF 不是对该数据集建模的好选择? 我仍然很奇怪排名如此不同: SHAP 汇总图与 RF VIM,我对排名靠前和排名靠后的变量进行了编号

Shouldn't the variables ranking be the same for MLP and RF?

没有。不同的算法可能会倾向于将某些特征排名更高,但没有理由排名相同。

不同的算法:

  1. 可能有不同的 objective 功能来实现预期目标。
  2. 可以使用不同的功能来实现 objective 函数的最小值(最大值)。

最重要的是,您引用的 RF“特征重要性”(平均基尼系数下降)只是计算 RF“特征重要性”的众多方法之一(包括您使用的指标,以及您如何计算总数由于功能而减少)。相比之下,SHAP 在解释特征对结果的贡献时与模型无关。

总之:

  1. 不同的模特对于什么重要什么不重要会有不同的看法。对一种算法重要的东西可能对另一种算法不那么重要,反之亦然。它没有说明模型对特定数据集的适用性。
  2. 使用 SHAP 值(或您和您的客户理解的任何其他特征重要性指标)来解释模型(如有必要)。
  3. 根据您的目标选择“最佳”模型:性能或可解释性。