SpaCy 3：如何获取用于训练的原始数据en_core_web_sm？

Question

我是 SpaCy 的新手。我注意到所有 en_core_web 模型的文档中列出了许多 NER 类别：

'CARDINAL', 
'DATE', 
'EVENT', 
'FAC', 
'GPE', 
'LANGUAGE', 
'LAW', 
'LOC', 
'MONEY', 
'NORP', 
'ORDINAL', 
'ORG', 
'PERCENT', 
'PERSON', 
'PRODUCT', 
'QUANTITY', 
'TIME', 
'WORK_OF_ART'

我需要访问用于为每个词分配正确类别的原始数据。换句话说，标记为 'WORK_OF_ART' 的单词列表是什么，这个列表可用吗？

我问这个问题的原因是我想构建一个使用一些默认 NER 类别以及我自己的自定义模型。

Answer 1

根据 en_core_web 的变体，数据会有所不同，

Dataset	License	URL	web_sm	web_md	eweb_lg	web_trf
OntoNotes 5	LDC Non-Members	https://catalog.ldc.upenn.edu/LDC2013T19	✓	✓	✓	✓
Wordnet 3.0	WordNet License	https://wordnet.princeton.edu/download	✓	✓	✓	✓
ClearNLP Constituent-to-Dependency Conversion	Apache 2.0	dependency_conversion.md	✓	✓	✓	✓
GloVe Common Crawl	Apache 2.0	https://nlp.stanford.edu/projects/glove/	✕	✓	✓	✕
Roberta Base	???	Fairseq Roberta

https://spacy.io/models/en is from OntoNotes that contains NER tags, see Section 2.6 of https://catalog.ldc.upenn.edu/docs/LDC2013T19/OntoNotes-Release-5.0.pdf

中描述的 NER 标记方案

NER标签采用CONLL BIO格式，见https://github.com/yuchenlin/OntoNotes-5.0-NER-BIO and when read properly, each sentence should be a list of tuples, e.g. Get Stanford NER result through NLTK with IOB format

另请参阅 https://github.com/flairNLP/flair/ 使用 Ontonotes 训练 NER 时，它可能会有所帮助。

SpaCy 3：如何获取用于训练的原始数据en_core_web_sm？

SpaCy 3: how to get the raw data used to train en_core_web_sm?

python

nlp

named-entity-recognition

spacy