如何计算连续特征的信息增益

How to calculate the information gain of a continuous feature

如果我没有任何离散值,我在寻找正确的信息增益参数时遇到问题,因此我首先需要将这些点离散化为区间。

我有什么

我正在做图像处理,我的特征可能的范围是 0-255。通过一些训练数据,我可以定义一些间隔(仅定义 "is object or is not object")。如果 goods 是匹配点的间隔数,而 bads 是其环境标签。我会这样计算

这种情况下的信息增益:

哪里

结果与想法:

出于某种原因,我最终得到了一个 negative IG,这是胡说八道,但我没有看到错误。另一个想法不是计算 good 对象匹配 间隔,而是计算 good 中适合任何良好间隔的样本。

有人有想法吗?

我看不到你在之前和之后(或 P 和 Q)分布中有什么。

从一种情况到另一种情况,你有没有改变什么?不清楚。

看看What is "entropy and information gain"?

似乎好+坏代表了整个分布。

所以你需要做一些改变才能从一个(好,坏)到另一个(好,坏)。

那么你正确地应用了公式 - 或者按照示例进行操作

你的公式好像有问题。