Weka 用于评估具有连续值的熵的 InfoGainAttributeEval 公式是什么?

What is Weka's InfoGainAttributeEval formula for evaluating Entropy with continuous values?

我正在使用 Weka 的信息增益属性选择函数,我试图弄清楚 Weka 在处理连续数据时使用的具体公式。

我知道熵的常用公式是 this for when the values in the data are discrete. I understand that when dealing with continuous data one can either use Differential Entropy or discretize the values. I've tried looking at Weka's explanation to InfoGainAttributeEval 并查看了很多其他参考资料,但找不到任何东西。

也许只有我一个人,但有人知道 Weka 是如何实现这种情况的吗?

谢谢!

我问过作者 Mark Hall,他说:

It uses the supervised MDL-based discretization method of Fayad and Irani. See the javadocs:
http://weka.sourceforge.net/doc.stable-3-8/weka/attributeSelection/InfoGainAttributeEval.html

你也可以看到这个link的离散化方法:

http://weka.sourceforge.net/doc.stable-3-8/weka/filters/supervised/attribute/Discretize.html