如何理解评估标签的脚本conlleval.perl?
How to understand the script conlleval.perl for evaluating tagging?
我一直不知道如何评估标记任务,包括词性标记或任何其他序列标记。我尤其不知道如何计算这些任务的 Precision、Recall 和 F1 分数。
然后我发现有一个名为conlleval.perl的脚本,我们可以直接使用它来评估。但是我不懂perl语言,我还是搞不懂P、R、F1在标注任务中是怎么计算的。
有谁可以告诉我吗?
书中有一个简单的定义口语理解:从语音中提取语义信息的系统(作者:Gokhan Tur,Renato De Mori),chapter 3.1.5 Evaluation metrics:
精度 = SLU 正确检测到的参考槽数/SLU 检测到的总槽数
召回 = SLU 正确检测到的参考槽数 / 总参考槽数
F1 = 2 x Precision x Recall / (Precision + Recall)
注意:对于整体指标 conlleval 使用 micro averaging.
我一直不知道如何评估标记任务,包括词性标记或任何其他序列标记。我尤其不知道如何计算这些任务的 Precision、Recall 和 F1 分数。 然后我发现有一个名为conlleval.perl的脚本,我们可以直接使用它来评估。但是我不懂perl语言,我还是搞不懂P、R、F1在标注任务中是怎么计算的。 有谁可以告诉我吗?
书中有一个简单的定义口语理解:从语音中提取语义信息的系统(作者:Gokhan Tur,Renato De Mori),chapter 3.1.5 Evaluation metrics:
精度 = SLU 正确检测到的参考槽数/SLU 检测到的总槽数
召回 = SLU 正确检测到的参考槽数 / 总参考槽数
F1 = 2 x Precision x Recall / (Precision + Recall)
注意:对于整体指标 conlleval 使用 micro averaging.