已知词和未知词的 POS 准确率
POS accuracy of known and unknown words
如何计算词性标注中已知词和未知词的准确率?例如对于已知词,是否将正确标记的已知词除以所有已知词?还有其他方法吗?
我认为你的方法是对的。您只需要一个词典来确定给定单词是已知单词还是未知单词。 RDRPOSTagger提供了一段代码来计算已知词和未知词的标注准确率。请参阅 Utility
包中 Eval.py
模块中的函数 computeAccuracies(lexicon, goldCorpus, taggedCorpus)
。
您可能想查看 this paper,它显示了 3 个词性标注器和词法标注器在 13 种语言(包括保加利亚语、捷克语、荷兰语、英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语、瑞典语、泰语和越南语。
如何计算词性标注中已知词和未知词的准确率?例如对于已知词,是否将正确标记的已知词除以所有已知词?还有其他方法吗?
我认为你的方法是对的。您只需要一个词典来确定给定单词是已知单词还是未知单词。 RDRPOSTagger提供了一段代码来计算已知词和未知词的标注准确率。请参阅 Utility
包中 Eval.py
模块中的函数 computeAccuracies(lexicon, goldCorpus, taggedCorpus)
。
您可能想查看 this paper,它显示了 3 个词性标注器和词法标注器在 13 种语言(包括保加利亚语、捷克语、荷兰语、英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语、瑞典语、泰语和越南语。