如何计算连续特征的信息增益
How to calculate the information gain of a continuous feature
如果我没有任何离散值,我在寻找正确的信息增益参数时遇到问题,因此我首先需要将这些点离散化为区间。
我有什么:
我正在做图像处理,我的特征可能的范围是 0-255。通过一些训练数据,我可以定义一些间隔(仅定义 "is object or is not object")。如果 goods
是匹配点的间隔数,而 bads
是其环境标签。我会这样计算
这种情况下的信息增益:
哪里
结果与想法:
出于某种原因,我最终得到了一个 negative IG,这是胡说八道,但我没有看到错误。另一个想法不是计算 good
的 对象匹配 间隔,而是计算 good
中适合任何良好间隔的样本。
有人有想法吗?
我看不到你在之前和之后(或 P 和 Q)分布中有什么。
从一种情况到另一种情况,你有没有改变什么?不清楚。
看看What is "entropy and information gain"?
似乎好+坏代表了整个分布。
所以你需要做一些改变才能从一个(好,坏)到另一个(好,坏)。
那么你正确地应用了公式 - 或者按照示例进行操作
你的公式好像有问题。
如果我没有任何离散值,我在寻找正确的信息增益参数时遇到问题,因此我首先需要将这些点离散化为区间。
我有什么:
我正在做图像处理,我的特征可能的范围是 0-255。通过一些训练数据,我可以定义一些间隔(仅定义 "is object or is not object")。如果 goods
是匹配点的间隔数,而 bads
是其环境标签。我会这样计算
这种情况下的信息增益:
哪里
结果与想法:
出于某种原因,我最终得到了一个 negative IG,这是胡说八道,但我没有看到错误。另一个想法不是计算 good
的 对象匹配 间隔,而是计算 good
中适合任何良好间隔的样本。
有人有想法吗?
我看不到你在之前和之后(或 P 和 Q)分布中有什么。
从一种情况到另一种情况,你有没有改变什么?不清楚。
看看What is "entropy and information gain"?
似乎好+坏代表了整个分布。
所以你需要做一些改变才能从一个(好,坏)到另一个(好,坏)。
那么你正确地应用了公式 - 或者按照示例进行操作
你的公式好像有问题。