随机森林如何处理看不见的数据?

What does Random Forest do with unseen data?

当我在 python 中使用 scikit learn 构建我的随机森林模型时,我设置了一个条件(sql 查询中的 where 子句)以便训练数据仅包含值大于的值0.

我很好奇随机森林如何处理值小于0的测试数据,这是随机森林模型在训练数据中从未见过的。

它们将以与训练集中已经遇到的最小值相同的方式处理。 RF 只是一堆投票决策树,而(基本)DT 只能以 "if feature X is > then T go left, otherwise go right" 的形式形成决策。因此,如果你将它拟合到数据,对于给定的特征,只有 [0, inf] 中的值,它要么根本不使用这个特征,要么以上面给出的形式使用它(作为 [=13 形式的决定) =],其中 T 必须来自 (0, inf) 才能对训练数据有意义)。因此,如果您只是获取新数据并将负值更改为“0”,结果将是相同的。