召回率或准确率的置信度 Interval/Margin

Confidence Interval/Margin of Recall or Precision

如果我有一个基于样本集的混淆矩阵,我该如何确定 recall/precision/etc 指标的统计功效(置信度 margin/interval)?我知道如何对转化概率本身进行统计功效分析,但如何对 recall/precision?

进行统计功效分析

找到了这个问题的答案。它是 p +/- Z_score_at_alpha * std_error 的标准置信区间计算的稍微修改的方程式。唯一的区别是 p(基本上是你的召回概率)是用偏移量计算的 -> adjusted_recall=(TP+2)/(TP+FN+4)。

一般的想法是,当 p 为 0 或 1 时,标准置信区间方程式不起作用。该方程式提供了一种调整,使其能够起作用。这只是一个软糖因素。

另外,std 错误现在是 sqrt(adjusted_recall(1-adjusted_recall)/(N+4))。 这被称为威尔逊得分区间 - https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#Wilson_score_interval

http://www.stat.ucdavis.edu/~kwwong/STA13-SS1-12/Statistics_13_files/lecture05.pdf

https://stats.stackexchange.com/questions/109429/wilsons-adjustment-for-sample-proportion