bin映射是如何构建的?

How bin mapping is constructed?

我在lightgbm论文中找不到关于如何构造bin映射的详细描述。 我有几个关于 bin 映射的问题。

  1. 是静态的还是动态的?即在节点增长过程中,bin mapping是否发生变化?

  2. 每个特征维度的bin数是否相等?例如,对于一个热门特征,bin 的数量是否等于 2?

  3. 对于实值特征,bin的分割点是否均匀分布?或者找到bin的分割点有什么原则?

1: 分箱是一种预处理形式:每个变量在优化前被转换为离散值。它特定于您的训练数据,不会改变。

2: 有一个参数你可以调整来设置最大bin数。但是当然,如​​果您的特征只有 5 个不同的值,那么将只有 5 个 bin。因此,您可以为每个特征设置不同数量的 bin。

3: bins 的分割点不是按等宽选择的,而是按频率选择的:如果设置 100 个 bins,将选择分割点,例如每个 bins 包含大约所有训练的 1%点(可能或多或少取决于您是否具有相同的值)。这个过程类似于pandas qcut函数。

希望我已经回答了你的问题。