我如何知道我的正确概率分数的置信水平?

How do I know the confidence level of my correct probability score?

我有一个作家识别系统,可以针对每个训练有素的模型返回测试样本的 NLL(负最小似然)分数。例如,如果有 13 个模型将样本与 NLL 输出进行比较,将如下所示。

15885.1881156907    17948.1931699086    17205.1548161452    16846.8936368077    20798.8048757930    18153.8179076007    18972.6746781821    17398.9047592641    19292.8326540969    22559.3178790489    17315.0994094185    19471.9518308519    18867.2297851016

其中每一列代表该样本针对每个模型的分数。第 1 列给出了针对模型 1 的分数,依此类推。

这个测试样本是由模型1编写的。所以第一列应该是正确预测的最小值。

我在此处提供的输出给出了所需的预测,因为第 1 列的值最小。

当我展示我的结果时,有人问我对分数或预测值有多自信?我被要求提供每个分数的置信度。

我在这之后做了一些阅读,发现了一些关于 95% 置信区间的帖子,这些帖子出现在我的 google 查询的每个结果中,但它似乎不是我需要的。

我需要这个的原因是假设对于一个测试样本,我有 2 个模型的分数。然后使用置信度,我应该知道应该选择哪个分数。

例如,对于同一个测试样本,另一个模型的分数是:

124494.535128967    129586.451168849    126269.733526396    129579.895935672    128582.387405272    125984.657455834    127486.755531507    125162.136816278    129790.811437270    135902.112799503    126599.346536290    136223.382395325    126182.202727967

两者都正确预测,因为在这两种情况下,第 1 列中的分数都是最低的。但是我又如何找到我分数的置信度?

在此不胜感激。

据我所知,您无法仅根据一个值来评估置信度。
假设您可以将结果存储在一个矩阵中,其中每一列对应一个模型,每一行对应一个示例(或 observation)。您可以根据以下过程使用该模型的所有预测结果来评估每个模型的置信度(即您可以评估我们矩阵中任何列的置信区间):

  1. 计算列的平均值,我们称之为µ
  2. 评估列的标准偏差,我们称之为σ
  3. 将平均误差计算为 ε=σ/sqrt(N),其中 N 是样本数(行)
  4. 置信区间的下限由 µ-2ε 给出,而上限由 µ+2ε 给出。通过直接减法,您可以找到这种置信区间的幅度。越接近零,您的测量就越准确。

希望这就是您要找的。