bin映射是如何构建的？

How bin mapping is constructed?

我在lightgbm论文中找不到关于如何构造bin映射的详细描述。我有几个关于 bin 映射的问题。

1: 分箱是一种预处理形式：每个变量在优化前被转换为离散值。它特定于您的训练数据，不会改变。

2: 有一个参数你可以调整来设置最大bin数。但是当然，如果您的特征只有 5 个不同的值，那么将只有 5 个 bin。因此，您可以为每个特征设置不同数量的 bin。

3: bins 的分割点不是按等宽选择的，而是按频率选择的：如果设置 100 个 bins，将选择分割点，例如每个 bins 包含大约所有训练的 1%点（可能或多或少取决于您是否具有相同的值）。这个过程类似于pandas qcut函数。

希望我已经回答了你的问题。