是否有基于百分比的排名指标有利于更大的幅度?

Is there a ranking metric based on percentages that favors larger magnitudes?

我有两个组,"in" 和 "out," 以及可以在组之间拆分的项目类别。例如,我可以让项目类别 A 为 99% "in" 和 1% "out,",项目 B 为 98% "in" 和 2% "out."

对于这些项目中的每一项,我实际上有 in/out 个计数。例如,A 可能有 99 件进货和 1 件出货,B 可能有 196 件进货和 4 件出货。

我想根据 "in," 的百分比对这些项目进行排名,但我也想优先考虑总体人口较多的项目。这是因为我想专注于与 "in" 组非常相关的项目,但在 "out" 组中仍有大量项目我可以追求。

是否有某种乐谱可以做到这一点?

我很想使用概率排名 - 项目类别来自给定该类别实际数量的组的概率。这需要对数据集做出一些假设,包括为什么一个类别可能有任何组外项目。你可以看看 binomial test or the Mann-Whitney U test for a start. You might also look at some other kinds of nonparametric statistics.

我最终使用了 this post. The technique is briefly described in this wikipedia article and more thoroughly described in this post by Evan miller and this post by Paul Masurel 中推荐的贝叶斯平均法。

在贝叶斯平均中,"prior values" 用于影响分子和分母对预期值的影响。本质上,期望分子和期望分母被添加到实际分子和分母。在分子和分母较小的情况下,先验值的影响较大,因为它们代表了新numerator/denominator的较大比例。随着分子和分母的数量级增长,贝叶斯平均数开始接近实际平均数,因为信心增加。

在我的例子中,平均值的先验值相当低,这使小分母的平均值向下倾斜。