在weka中使用加权平均F度量有什么优势

What is the advantage of using weighted average F measure in weka

在 weka 中,我分别看到了 'yes' class 和 'no' class 的 F-measure。但是使用加权平均 F-measure 来比较模型的性能有什么好处呢?请帮我找到答案:)

据我所知,当一个或两个接近 0 或 1 时,它可以更好地处理 "extreme" 精度或召回 (P, R) 数字。(它们通常是负相关的)。

当您想对数据集应用不同的算法并最终得到一些需要比较的 precision/recall 数字时,可能会发生这种情况。

原来简单平均(P+R)/2太简单了

如果您有一个数据集,其中精度或召回率接近 1 或零,F-measure 仍然会考虑另一个,有点武断。

(名字本身没有任何意义)

Andrew Ng 在他的第 6 周机器学习课程中对此进行了很好的解释 "Handling skewed data"

让我们从一个聪明的例子开始,class使用机器学习来验证文本中的蛋白质相互作用,我们的 classifier 试图 class 将句子分成两个 classes: (1) 正面 class (2) 负面 class。正面 class 包含描述蛋白质相互作用的句子,负面 class 包含不描述蛋白质相互作用的句子。作为一名研究人员,我的重点将是我的 class 阳性 class 的 F 分数。为什么?因为我有兴趣看到我的 classifier 在 class 化包含蛋白质相互作用的句子上的表现,我不关心它 class 化否定句的能力。因此,我将只考虑阳性 class 的 F-score。

然而,对于另一个 class 垃圾邮件 class 化这样的问题,我们的 classifier class 将电子邮件分成两个 classes: ( 1) 火腿和 (2) 垃圾邮件,情况有点不同。作为一名研究人员,我想知道我的 classifier 对 hams 和垃圾邮件进行 classify 的能力。到那时,我可以独立或以汇总方式检查每个 class 的 F 分数。 ham 和 spam class 的 F 分数的加权平均值是一种检查我们的 classifier 对两者的性能的方法(在这种情况下,对于 multi-class 问题阅读全部) classes。因为加权 F 度量只是所有 F 度量的总和,每个 F 度量根据具有特定 class 标签的实例数加权,并且对于两个 classes,计算如下:

Weighted F-Measure=((F-Measure for n class X number of instances from n class)+(F-Measure for y class X number of instances from y class))/total instances in dataset.

所以,底线是 - 如果 class化对所有 classes 敏感,则使用所有 classes 的 F 分数的加权平均值。