如何理解评估标签的脚本conlleval.perl?

How to understand the script conlleval.perl for evaluating tagging?

我一直不知道如何评估标记任务,包括词性标记或任何其他序列标记。我尤其不知道如何计算这些任务的 Precision、Recall 和 F1 分数。 然后我发现有一个名为conlleval.perl的脚本,我们可以直接使用它来评估。但是我不懂perl语言,我还是搞不懂P、R、F1在标注任务中是怎么计算的。 有谁可以告诉我吗?

书中有一个简单的定义口语理解:从语音中提取语义信息的系统(作者:Gokhan Tur,Renato De Mori),chapter 3.1.5 Evaluation metrics

精度 = SLU 正确检测到的参考槽数/SLU 检测到的总槽数

召回 = SLU 正确检测到的参考槽数 / 总参考槽数

F1 = 2 x Precision x Recall / (Precision + Recall)

注意:对于整体指标 conlleval 使用 micro averaging.