决策树状态栏&相关数值栏

Decision Tree status column & related numerical value column

我有一个包含两列的数据,其中一列明确显示特征的状态,另一列以数字形式显示相关值。如下所示:

我想 运行 通过 scikit 在此数据上学习决策树算法。我不确定如何处理这两列,因为从概念上讲我无法弄清楚如何将这些非常相关的特征结合起来。基本上,我们不应该留下空数据,但是,这个数据本质上应该在数字列中为空。如果我们把它设为“0”,它就有了另外的含义。

那么,我应该如何预处理这些数据才能使决策树算法正常工作?

我的前辈给出了如下合理的答案。

首先,用“0”填充空单元格。 如果将数据插入具有这两个特征的决策树算法中,我们有两种情况:

  • 如果 "Status" 在前: 树会将 0 和 1 分成两个分支。在 0 下,所有 Amount 值都已经为 0,因此不会选择此功能。 1以下,不会有任何0状态。

  • 如果"Amount"排在第一位:所有状态为0的将只在一个分支下,它们将与数量非常少的那些聚集在一起。

因此,如果金额数据嘈杂,保留状态列可能会有所帮助。否则,我会删除状态列。