什么时候微观和宏观平均差异很大?
When do micro- and macro-averages differ a lot?
我正在学习机器学习理论。我有一个使用多个 类.
的逻辑回归进行预测的混淆矩阵
现在我已经计算了微观和宏观平均值(精度和召回率)。
价值观完全不同。现在我想知道哪些因素会影响这一点。什么情况下会出现微观和宏观差异很大?
我注意到,不同 类 的预测准确度不同。是这个原因吗?或者还有什么其他因素会导致这种情况?
样本混淆矩阵:
我计算的微观-宏观-平均值:
precision-micro = ~0.7329
recall-micro = ~0,7329
precision-macro = ~0.5910
recall-macro = ~0.6795
微观和宏观平均值之间的差异在不平衡的数据集中变得明显。
micro
平均值是一个全局策略,基本上忽略了classes之间的区别。它是通过计算所有 class 中的真阳性、假阴性和假阳性的总数来计算的。
在基础问题不是多标签 classification 的 classification 任务中,微观平均值实际上等于准确性得分。确保您的微精度和召回率相等。计算准确率并进行比较,你会发现没有区别。
如果是 macro
平均值,则分别计算每个标签的精度和召回率,并报告为它们的未加权平均值。根据您的 classifier 在每个 class 上的表现,这可能会严重影响结果。
您也可以参考我的这篇 ,其中有更详细的说明。
我正在学习机器学习理论。我有一个使用多个 类.
的逻辑回归进行预测的混淆矩阵现在我已经计算了微观和宏观平均值(精度和召回率)。
价值观完全不同。现在我想知道哪些因素会影响这一点。什么情况下会出现微观和宏观差异很大?
我注意到,不同 类 的预测准确度不同。是这个原因吗?或者还有什么其他因素会导致这种情况?
样本混淆矩阵:
我计算的微观-宏观-平均值:
precision-micro = ~0.7329
recall-micro = ~0,7329
precision-macro = ~0.5910
recall-macro = ~0.6795
微观和宏观平均值之间的差异在不平衡的数据集中变得明显。
micro
平均值是一个全局策略,基本上忽略了classes之间的区别。它是通过计算所有 class 中的真阳性、假阴性和假阳性的总数来计算的。
在基础问题不是多标签 classification 的 classification 任务中,微观平均值实际上等于准确性得分。确保您的微精度和召回率相等。计算准确率并进行比较,你会发现没有区别。
如果是 macro
平均值,则分别计算每个标签的精度和召回率,并报告为它们的未加权平均值。根据您的 classifier 在每个 class 上的表现,这可能会严重影响结果。
您也可以参考我的这篇