如何识别哪些特征影响预测结果?
How to identify what features affect predictions result?
我有一个 table 具有用于构建某些模型以预测用户是否会购买新保险的功能。在同一个 table 我有概率属于这个模型预测的 class 1(会买)和 class 0(不会买)。我不知道用什么样的算法来建立这个模型。我只有它的预测概率。
问题:如何识别影响这些预测结果的特征?
我是否需要构建相关矩阵或进行任何测试?
Table 示例:
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| user_id | age | car_price | car_age | income | education | gender | crashes | probability | true_labes |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| 1 | 29 | 15600 | 3 | 20000 | 3 | 1 | 1 | 0.23 | 0 |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| 2 | 41 | 43000 | 1 | 65000 | 2 | 0 | 1 | 0.1 | 0 |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| 3 | 39 | 23500 | 5 | 43000 | 3 | 1 | 0 | 0.46 | 1 |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| 4 | 19 | 12200 | 3 | 13000 | 1 | 1 | 0 | 0.34 | 1 |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| 5 | 68 | 21900 | 2 | 31300 | 3 | 0 | 1 | 0.85 | 1 |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
您可以建立一个像 this 的模型。
x = 您拥有的功能。
y = true_lable
您可以从中提取特征重要性。
另外,如果你想多走一步,你可以做Bootstrapping,这样特征重要性会更稳定(统计)。
我有一个 table 具有用于构建某些模型以预测用户是否会购买新保险的功能。在同一个 table 我有概率属于这个模型预测的 class 1(会买)和 class 0(不会买)。我不知道用什么样的算法来建立这个模型。我只有它的预测概率。
问题:如何识别影响这些预测结果的特征? 我是否需要构建相关矩阵或进行任何测试?
Table 示例:
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| user_id | age | car_price | car_age | income | education | gender | crashes | probability | true_labes |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| 1 | 29 | 15600 | 3 | 20000 | 3 | 1 | 1 | 0.23 | 0 |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| 2 | 41 | 43000 | 1 | 65000 | 2 | 0 | 1 | 0.1 | 0 |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| 3 | 39 | 23500 | 5 | 43000 | 3 | 1 | 0 | 0.46 | 1 |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| 4 | 19 | 12200 | 3 | 13000 | 1 | 1 | 0 | 0.34 | 1 |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| 5 | 68 | 21900 | 2 | 31300 | 3 | 0 | 1 | 0.85 | 1 |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
您可以建立一个像 this 的模型。
x = 您拥有的功能。 y = true_lable
您可以从中提取特征重要性。 另外,如果你想多走一步,你可以做Bootstrapping,这样特征重要性会更稳定(统计)。