寻找二元分类特征的标准
Finding the criterion of the Features in Binary Classification
我在 h2o 中使用 DRF 进行了二进制分类。我得到了特征重要性,然后我要求找到每个特征的标准。
例如:我必须对接受和拒绝用户进行分类,特征是年龄、薪水、work_experience、居住城市(当然已经解码)。所以,我的老板想知道哪个年龄段的用户被拒绝或接受的倾向,哪个薪水范围,哪些城市有倾向被拒绝或接受。
我不会错,但我想要的输出可能如下所示:
Tendency salary for accepted user = 10k - 50k
Tendency salary for accepted user = 5k - 30k
Tendency age for accepted user = 18 - 55
Tendency age for rejected user = 31 - 35
Tendency cities for accepted user = 1, 5, 10, 23
Tendency cities for rejected user = 3, 4, 12, 36
so on..
如何实现?
p.s: 我有一个已接受用户的列表。
我认为您需要像部分依赖图这样的东西。
这是 H2O 中的示例:https://rdrr.io/cran/h2o/man/h2o.partialPlot.html
PDP 将显示目标的概率如何取决于某个变量的值。
我在 h2o 中使用 DRF 进行了二进制分类。我得到了特征重要性,然后我要求找到每个特征的标准。
例如:我必须对接受和拒绝用户进行分类,特征是年龄、薪水、work_experience、居住城市(当然已经解码)。所以,我的老板想知道哪个年龄段的用户被拒绝或接受的倾向,哪个薪水范围,哪些城市有倾向被拒绝或接受。
我不会错,但我想要的输出可能如下所示:
Tendency salary for accepted user = 10k - 50k
Tendency salary for accepted user = 5k - 30k
Tendency age for accepted user = 18 - 55
Tendency age for rejected user = 31 - 35
Tendency cities for accepted user = 1, 5, 10, 23
Tendency cities for rejected user = 3, 4, 12, 36
so on..
如何实现?
p.s: 我有一个已接受用户的列表。
我认为您需要像部分依赖图这样的东西。 这是 H2O 中的示例:https://rdrr.io/cran/h2o/man/h2o.partialPlot.html
PDP 将显示目标的概率如何取决于某个变量的值。