在决策树中，如果我有一个有多个分支的节点，我应该使用什么日志基础？

In decision trees, what log base should I use if I have a node with multiple branches?

下面的问题让我很困惑。你能帮我吗？（最好是找一些学术参考资料。）

我们在决策树中通常使用base-2 log function来计算熵，这是因为大多数节点只允许二进制分支吗？

如果我想要一个有很多分支的节点，log2在理论上是否仍然有效？

比如在Xgboost中，训练集的输入应该是矩阵的形式，我想那意味着我们只能把数值作为输入。

非常感谢！

几乎可以肯定对数以 2 为底，因为我们喜欢以位为单位测量熵。这只是一个约定，有些人使用基数 e 代替（nats 代替位）。

我不能谈论 Xgboost，但对于离散决策问题，熵作为一种性能度量发挥作用，而不是直接作为树结构的结果。您可以仅根据熵的定义计算任何拆分（使用任何分支因子）的信息增益。

如果您正在寻找一本关于信息论和概率的书籍，我强烈推荐 MacKay（提供完整的 PDF）。他涵盖了相当多的机器学习和统计学。但是不包括决策树。