R RecordLinkage 包,了解 alpha 和 beta 错误

R RecordLinkage package, Understanding alpha and beta errors

最近在学习使用R RecordLinkage包。在一个链接 2 个数据集的非常小的示例中,一个有 8 行,另一个有 11 行,我得到了结果:

Linkage Data Set

8 records in data set 1 
11 records in data set 2 
8 record pairs 

4 matches
4 non-matches
0 pairs with unknown status


Weight distribution:

[0.4,0.5] (0.5,0.6] (0.6,0.7] (0.7,0.8] (0.8,0.9]   (0.9,1] 
        2         0         2         0         1         3 

3 links detected 
0 possible links detected 
5 non-links detected 

alpha error: 0.250000
beta error: 0.000000
accuracy: 0.875000


Classification table:

           classification
true status N P L
      FALSE 4 0 0
      TRUE  1 0 3

未能理解的是 alpha 误差、beta 误差和准确度与分类 table 之间的关系。下面的数字到底是从哪里来的,是怎么计算出来的:

alpha error: 0.250000
beta error: 0.000000
accuracy: 0.875000

非常感谢任何帮助

Alpha 和 Beta 误差是统计量度,通常分别称为 I 型和 II 型误差。在统计术语中,alpha 误差是拒绝原假设的概率; beta 错误是假定零假设不成立的概率(比较,例如 http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2996198/)。

在记录 linkage 的情况下,零假设是一对记录是匹配的,即两条记录代表相同的实体。因此,alpha 错误是将一对标记为不匹配的概率,因为它确实是匹配的(假阴性)。此错误的计算公式为:(分类为 'non-link' 的匹配数)/(匹配数)。[1]在上面的例子中,有 4 个匹配项,其中 1 个未被识别,因此,alpha error 为 1 / 4 = 0.25.

类似地,beta 错误是将一对分类为匹配的概率,因为它实际上是一个不匹配(误报)。它的计算公式为(分类为 'link' 的不匹配数)/(不匹配数)。在上面的示例中,没有误报分类,因此 beta 错误为 0。让我们假设一个不同的分类 table:

           classification
true status N P L
      FALSE 2 0 2
      TRUE  1 0 3

在这种情况下,有 4 个不匹配项,其中 2 个被错误分类为 link,因此 beta 误差为 2 / 4 = 0.5。

最后,准确率只是所有对中正确分类的比例(参见 https://en.wikipedia.org/wiki/Evaluation_of_binary_classifiers#Single_metrics)。在问题的分类 table 中,有 7 个正确分类(4 个不匹配,3 个匹配),因此准确度为 7 / 8 = 0,875。

[1] 当我指的是分类算法的结果与真实状态对比时,我使用“(non-)link”而不是“(non-)match”。