SpaCy 3:如何获取用于训练的原始数据en_core_web_sm?

SpaCy 3: how to get the raw data used to train en_core_web_sm?

我是 SpaCy 的新手。我注意到所有 en_core_web 模型的文档中列出了许多 NER 类别:

'CARDINAL', 
'DATE', 
'EVENT', 
'FAC', 
'GPE', 
'LANGUAGE', 
'LAW', 
'LOC', 
'MONEY', 
'NORP', 
'ORDINAL', 
'ORG', 
'PERCENT', 
'PERSON', 
'PRODUCT', 
'QUANTITY', 
'TIME', 
'WORK_OF_ART'

我需要访问用于为每个词分配正确类别的原始数据。换句话说,标记为 'WORK_OF_ART' 的单词列表是什么,这个列表可用吗?

我问这个问题的原因是我想构建一个使用一些默认 NER 类别以及我自己的自定义模型。

根据 en_core_web 的变体,数据会有所不同,

Dataset License URL web_sm web_md eweb_lg web_trf
OntoNotes 5 LDC Non-Members https://catalog.ldc.upenn.edu/LDC2013T19
Wordnet 3.0 WordNet License https://wordnet.princeton.edu/download
ClearNLP Constituent-to-Dependency Conversion Apache 2.0 dependency_conversion.md
GloVe Common Crawl Apache 2.0 https://nlp.stanford.edu/projects/glove/
Roberta Base ??? Fairseq Roberta

https://spacy.io/models/en is from OntoNotes that contains NER tags, see Section 2.6 of https://catalog.ldc.upenn.edu/docs/LDC2013T19/OntoNotes-Release-5.0.pdf

中描述的 NER 标记方案

NER标签采用CONLL BIO格式,见https://github.com/yuchenlin/OntoNotes-5.0-NER-BIO and when read properly, each sentence should be a list of tuples, e.g. Get Stanford NER result through NLTK with IOB format

另请参阅 https://github.com/flairNLP/flair/ 使用 Ontonotes 训练 NER 时,它可能会有所帮助。