什么时候微观和宏观平均差异很大?

When do micro- and macro-averages differ a lot?

我正在学习机器学习理论。我有一个使用多个 类.

的逻辑回归进行预测的混淆矩阵

现在我已经计算了微观和宏观平均值(精度和召回率)。

价值观完全不同。现在我想知道哪些因素会影响这一点。什么情况下会出现微观和宏观差异很大?

我注意到,不同 类 的预测准确度不同。是这个原因吗?或者还有什么其他因素会导致这种情况?

样本混淆矩阵:

我计算的微观-宏观-平均值:

precision-micro = ~0.7329
recall-micro = ~0,7329

precision-macro = ~0.5910
recall-macro = ~0.6795

微观和宏观平均值之间的差异在不平衡的数据集中变得明显。

micro平均值是一个全局策略,基本上忽略了classes之间的区别。它是通过计算所有 class 中的真阳性、假阴性和假阳性的总数来计算的。

在基础问题不是多标签 classification 的 classification 任务中,微观平均值实际上等于准确性得分。确保您的微精度和召回率相等。计算准确率并进行比较,你会发现没有区别。

如果是 macro 平均值,则分别计算每个标签的精度和召回率,并报告为它们的未加权平均值。根据您的 classifier 在每个 class 上的表现,这可能会严重影响结果。

您也可以参考我的这篇 ,其中有更详细的说明。