合并数值特征后要做什么?

what to do after binning numerical feature?

我想知道在进行装箱后要做什么。例如,特征之一是年龄。所以我的数据是 [11, 12, 35, 26]。

然后我应用大小为 10 的分箱:

bin, 名称

[0, 10) --> 1

[10, 20) --> 2

[20, 30) -->3

[30, 40) --> 4

那么我的数据就变成了[2, 2, 4, 3]。现在假设我想将这些数据置于线性回归模式。我应该将 [2, 2, 4, 3] 视为数字特征吗?或者我应该将它们视为分类特征,比如先进行单热编码,然后将其提供给模型?

如果您要构建线性模型,那么对这些 bin 进行一次热编码可能是更好的选择,这样如果与目标有任何线性关系,ohe 就会保留它。

如果您正在构建基于树的模型,例如随机森林,那么您可以使用 [2, 2, 4, 3] 作为数值特征,因为这些模型是 non-linear.

如果构建回归模型并且不想使用 ohe 扩展特征 space,您可以将 bin 视为分类变量,并使用均值/目标编码或使用数字编码对该变量进行编码遵循每个 bin 的目标平均值。

有关 this article 中最后 2 个过程的更多详细信息。

免责声明:我写了这篇文章。