装箱不平衡数据

Binning Imbalanced Data

我有一个不平衡的数字数据集,如下所示:

我需要将数据分到 8 个分箱中,但是如果我将分箱设置为具有相同的大小,我只会将所有数据分到两个分箱中,而中间的其余部分将是空的。

有没有一种统计或数学方法可以在数据点很多的时候用细粒度的 bins 离散化数据,然后在数据点很少的时候用更粗粒度的 bins 离散化数据?

可以 对数据进行排序并根据等级 对数据进行分类。有时也称为 "depth"。所以如果你排序后的数据是

[1, 2, 4, 8, 16, 32]

你想要三个垃圾箱。你会用

[1, 2] [4, 8] [16, 32]

但是定义 bin 中心和边界的良好逻辑很难吗?您可能会使用平均值:1.5、6、24 作为中心,将最大值和最小值的中间值作为单元格边界:[1:3] [3:12] 和 [12:32]。

bin 大小不再有趣 因为它们都应该同样大?但是,如果您有多个变量,则 bin 的组合可能低于平均水平或高于预期。即表明变量之间存在某种依赖关系。