如何理解评估标签的脚本conlleval.perl？

How to understand the script conlleval.perl for evaluating tagging?

precision
perl
tagging
sequence

我一直不知道如何评估标记任务，包括词性标记或任何其他序列标记。我尤其不知道如何计算这些任务的 Precision、Recall 和 F1 分数。然后我发现有一个名为conlleval.perl的脚本，我们可以直接使用它来评估。但是我不懂perl语言，我还是搞不懂P、R、F1在标注任务中是怎么计算的。有谁可以告诉我吗？

书中有一个简单的定义口语理解：从语音中提取语义信息的系统（作者：Gokhan Tur，Renato De Mori），chapter 3.1.5 Evaluation metrics：

精度 = SLU 正确检测到的参考槽数/SLU 检测到的总槽数

召回 = SLU 正确检测到的参考槽数 / 总参考槽数

F1 = 2 x Precision x Recall / (Precision + Recall)

注意：对于整体指标 conlleval 使用 micro averaging.

如何理解评估标签的脚本conlleval.perl？

How to understand the script conlleval.perl for evaluating tagging?

precision

perl

tagging

sequence