spacy 中命名实体标签类型的符号是否必须与训练数据中带注释的标签类型的符号相匹配?

Does the notation of a named entity label type in spacy have to match with the notation of the annotated label type in the training data?

我想在我自己的语料库上训练 spaCy 的 NER 模型,该语料库是通过 WebAnno 注释的。不幸的是,spaCy 中一个 NE 类别的符号与 WebAnno 中的相应符号不匹配:在 WebAnno 中,标签是 "OTH" 而 spaCy 将其标记为 "MISC" (在语义上,它是相同的)。这会以负面方式影响训练过程或测试准确性吗?这种情况下是否需要额外训练一个网元类型"OTH"?感谢您的帮助!

使用的 spaCy 版本:2.2.5

是的,您当然希望使注释对齐。如果这是一次性操作,则可能最容易通过替换数据中的字符串来暴力解决问题。

更规范的选项似乎是 TagMap:https://spacy.io/usage/adding-languages#tag-map。引用:

[...] you need to define how [your tags] map down to the Universal Dependencies tag set.

他们的例子:

from ..symbols import POS, NOUN, VERB, DET

TAG_MAP = {
    "NNS":  {POS: NOUN, "Number": "plur"},
    "VBG":  {POS: VERB, "VerbForm": "part", "Tense": "pres", "Aspect": "prog"},
    "DT":   {POS: DET}
}