如何识别哪些特征影响预测结果?

How to identify what features affect predictions result?

我有一个 table 具有用于构建某些模型以预测用户是否会购买新保险的功能。在同一个 table 我有概率属于这个模型预测的 class 1(会买)和 class 0(不会买)。我不知道用什么样的算法来建立这个模型。我只有它的预测概率。

问题:如何识别影响这些预测结果的特征? 我是否需要构建相关矩阵或进行任何测试?

Table 示例:

+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| user_id | age | car_price | car_age | income | education | gender | crashes | probability | true_labes |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| 1       | 29  | 15600     | 3       | 20000  | 3         | 1      | 1       | 0.23        | 0          |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| 2       | 41  | 43000     | 1       | 65000  | 2         | 0      | 1       | 0.1         | 0          |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| 3       | 39  | 23500     | 5       | 43000  | 3         | 1      | 0       | 0.46        | 1          |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| 4       | 19  | 12200     | 3       | 13000  | 1         | 1      | 0       | 0.34        | 1          |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| 5       | 68  | 21900     | 2       | 31300  | 3         | 0      | 1       | 0.85        | 1          |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+

您可以建立一个像 this 的模型。

x = 您拥有的功能。 y = true_lable

您可以从中提取特征重要性。 另外,如果你想多走一步,你可以做Bootstrapping,这样特征重要性会更稳定(统计)。