我如何知道我的正确概率分数的置信水平?
How do I know the confidence level of my correct probability score?
我有一个作家识别系统,可以针对每个训练有素的模型返回测试样本的 NLL(负最小似然)分数。例如,如果有 13 个模型将样本与 NLL 输出进行比较,将如下所示。
15885.1881156907 17948.1931699086 17205.1548161452 16846.8936368077 20798.8048757930 18153.8179076007 18972.6746781821 17398.9047592641 19292.8326540969 22559.3178790489 17315.0994094185 19471.9518308519 18867.2297851016
其中每一列代表该样本针对每个模型的分数。第 1 列给出了针对模型 1 的分数,依此类推。
这个测试样本是由模型1编写的。所以第一列应该是正确预测的最小值。
我在此处提供的输出给出了所需的预测,因为第 1 列的值最小。
当我展示我的结果时,有人问我对分数或预测值有多自信?我被要求提供每个分数的置信度。
我在这之后做了一些阅读,发现了一些关于 95% 置信区间的帖子,这些帖子出现在我的 google 查询的每个结果中,但它似乎不是我需要的。
我需要这个的原因是假设对于一个测试样本,我有 2 个模型的分数。然后使用置信度,我应该知道应该选择哪个分数。
例如,对于同一个测试样本,另一个模型的分数是:
124494.535128967 129586.451168849 126269.733526396 129579.895935672 128582.387405272 125984.657455834 127486.755531507 125162.136816278 129790.811437270 135902.112799503 126599.346536290 136223.382395325 126182.202727967
两者都正确预测,因为在这两种情况下,第 1 列中的分数都是最低的。但是我又如何找到我分数的置信度?
在此不胜感激。
据我所知,您无法仅根据一个值来评估置信度。
假设您可以将结果存储在一个矩阵中,其中每一列对应一个模型,每一行对应一个示例(或 observation)。您可以根据以下过程使用该模型的所有预测结果来评估每个模型的置信度(即您可以评估我们矩阵中任何列的置信区间):
- 计算列的平均值,我们称之为µ
- 评估列的标准偏差,我们称之为σ
- 将平均误差计算为 ε=σ/sqrt(N),其中 N 是样本数(行)
- 置信区间的下限由 µ-2ε 给出,而上限由 µ+2ε 给出。通过直接减法,您可以找到这种置信区间的幅度。越接近零,您的测量就越准确。
希望这就是您要找的。
我有一个作家识别系统,可以针对每个训练有素的模型返回测试样本的 NLL(负最小似然)分数。例如,如果有 13 个模型将样本与 NLL 输出进行比较,将如下所示。
15885.1881156907 17948.1931699086 17205.1548161452 16846.8936368077 20798.8048757930 18153.8179076007 18972.6746781821 17398.9047592641 19292.8326540969 22559.3178790489 17315.0994094185 19471.9518308519 18867.2297851016
其中每一列代表该样本针对每个模型的分数。第 1 列给出了针对模型 1 的分数,依此类推。
这个测试样本是由模型1编写的。所以第一列应该是正确预测的最小值。
我在此处提供的输出给出了所需的预测,因为第 1 列的值最小。
当我展示我的结果时,有人问我对分数或预测值有多自信?我被要求提供每个分数的置信度。
我在这之后做了一些阅读,发现了一些关于 95% 置信区间的帖子,这些帖子出现在我的 google 查询的每个结果中,但它似乎不是我需要的。
我需要这个的原因是假设对于一个测试样本,我有 2 个模型的分数。然后使用置信度,我应该知道应该选择哪个分数。
例如,对于同一个测试样本,另一个模型的分数是:
124494.535128967 129586.451168849 126269.733526396 129579.895935672 128582.387405272 125984.657455834 127486.755531507 125162.136816278 129790.811437270 135902.112799503 126599.346536290 136223.382395325 126182.202727967
两者都正确预测,因为在这两种情况下,第 1 列中的分数都是最低的。但是我又如何找到我分数的置信度?
在此不胜感激。
据我所知,您无法仅根据一个值来评估置信度。
假设您可以将结果存储在一个矩阵中,其中每一列对应一个模型,每一行对应一个示例(或 observation)。您可以根据以下过程使用该模型的所有预测结果来评估每个模型的置信度(即您可以评估我们矩阵中任何列的置信区间):
- 计算列的平均值,我们称之为µ
- 评估列的标准偏差,我们称之为σ
- 将平均误差计算为 ε=σ/sqrt(N),其中 N 是样本数(行)
- 置信区间的下限由 µ-2ε 给出,而上限由 µ+2ε 给出。通过直接减法,您可以找到这种置信区间的幅度。越接近零,您的测量就越准确。
希望这就是您要找的。