装箱不平衡数据
Binning Imbalanced Data
我有一个不平衡的数字数据集,如下所示:
。
我需要将数据分到 8 个分箱中,但是如果我将分箱设置为具有相同的大小,我只会将所有数据分到两个分箱中,而中间的其余部分将是空的。
有没有一种统计或数学方法可以在数据点很多的时候用细粒度的 bins 离散化数据,然后在数据点很少的时候用更粗粒度的 bins 离散化数据?
您可以 对数据进行排序并根据等级 对数据进行分类。有时也称为 "depth"。所以如果你排序后的数据是
[1, 2, 4, 8, 16, 32]
你想要三个垃圾箱。你会用
[1, 2] [4, 8] [16, 32]
但是定义 bin 中心和边界的良好逻辑很难吗?您可能会使用平均值:1.5、6、24 作为中心,将最大值和最小值的中间值作为单元格边界:[1:3] [3:12] 和 [12:32]。
bin 大小不再有趣 因为它们都应该同样大?但是,如果您有多个变量,则 bin 的组合可能低于平均水平或高于预期。即表明变量之间存在某种依赖关系。
我有一个不平衡的数字数据集,如下所示:
我需要将数据分到 8 个分箱中,但是如果我将分箱设置为具有相同的大小,我只会将所有数据分到两个分箱中,而中间的其余部分将是空的。
有没有一种统计或数学方法可以在数据点很多的时候用细粒度的 bins 离散化数据,然后在数据点很少的时候用更粗粒度的 bins 离散化数据?
您可以 对数据进行排序并根据等级 对数据进行分类。有时也称为 "depth"。所以如果你排序后的数据是
[1, 2, 4, 8, 16, 32]
你想要三个垃圾箱。你会用
[1, 2] [4, 8] [16, 32]
但是定义 bin 中心和边界的良好逻辑很难吗?您可能会使用平均值:1.5、6、24 作为中心,将最大值和最小值的中间值作为单元格边界:[1:3] [3:12] 和 [12:32]。
bin 大小不再有趣 因为它们都应该同样大?但是,如果您有多个变量,则 bin 的组合可能低于平均水平或高于预期。即表明变量之间存在某种依赖关系。