SpaCy 3:如何获取用于训练的原始数据en_core_web_sm?
SpaCy 3: how to get the raw data used to train en_core_web_sm?
我是 SpaCy 的新手。我注意到所有 en_core_web
模型的文档中列出了许多 NER 类别:
'CARDINAL',
'DATE',
'EVENT',
'FAC',
'GPE',
'LANGUAGE',
'LAW',
'LOC',
'MONEY',
'NORP',
'ORDINAL',
'ORG',
'PERCENT',
'PERSON',
'PRODUCT',
'QUANTITY',
'TIME',
'WORK_OF_ART'
我需要访问用于为每个词分配正确类别的原始数据。换句话说,标记为 'WORK_OF_ART'
的单词列表是什么,这个列表可用吗?
我问这个问题的原因是我想构建一个使用一些默认 NER 类别以及我自己的自定义模型。
根据 en_core_web
的变体,数据会有所不同,
Dataset
License
URL
web_sm
web_md
eweb_lg
web_trf
OntoNotes 5
LDC Non-Members
https://catalog.ldc.upenn.edu/LDC2013T19
✓
✓
✓
✓
Wordnet 3.0
WordNet License
https://wordnet.princeton.edu/download
✓
✓
✓
✓
ClearNLP Constituent-to-Dependency Conversion
Apache 2.0
dependency_conversion.md
✓
✓
✓
✓
GloVe Common Crawl
Apache 2.0
https://nlp.stanford.edu/projects/glove/
✕
✓
✓
✕
Roberta Base
???
Fairseq Roberta
https://spacy.io/models/en is from OntoNotes that contains NER tags, see Section 2.6 of https://catalog.ldc.upenn.edu/docs/LDC2013T19/OntoNotes-Release-5.0.pdf
中描述的 NER 标记方案
NER标签采用CONLL BIO格式,见https://github.com/yuchenlin/OntoNotes-5.0-NER-BIO and when read properly, each sentence should be a list of tuples, e.g. Get Stanford NER result through NLTK with IOB format
另请参阅 https://github.com/flairNLP/flair/ 使用 Ontonotes 训练 NER 时,它可能会有所帮助。
我是 SpaCy 的新手。我注意到所有 en_core_web
模型的文档中列出了许多 NER 类别:
'CARDINAL',
'DATE',
'EVENT',
'FAC',
'GPE',
'LANGUAGE',
'LAW',
'LOC',
'MONEY',
'NORP',
'ORDINAL',
'ORG',
'PERCENT',
'PERSON',
'PRODUCT',
'QUANTITY',
'TIME',
'WORK_OF_ART'
我需要访问用于为每个词分配正确类别的原始数据。换句话说,标记为 'WORK_OF_ART'
的单词列表是什么,这个列表可用吗?
我问这个问题的原因是我想构建一个使用一些默认 NER 类别以及我自己的自定义模型。
根据 en_core_web
的变体,数据会有所不同,
Dataset | License | URL | web_sm | web_md | eweb_lg | web_trf |
---|---|---|---|---|---|---|
OntoNotes 5 | LDC Non-Members | https://catalog.ldc.upenn.edu/LDC2013T19 | ✓ | ✓ | ✓ | ✓ |
Wordnet 3.0 | WordNet License | https://wordnet.princeton.edu/download | ✓ | ✓ | ✓ | ✓ |
ClearNLP Constituent-to-Dependency Conversion | Apache 2.0 | dependency_conversion.md | ✓ | ✓ | ✓ | ✓ |
GloVe Common Crawl | Apache 2.0 | https://nlp.stanford.edu/projects/glove/ | ✕ | ✓ | ✓ | ✕ |
Roberta Base | ??? | Fairseq Roberta |
https://spacy.io/models/en is from OntoNotes that contains NER tags, see Section 2.6 of https://catalog.ldc.upenn.edu/docs/LDC2013T19/OntoNotes-Release-5.0.pdf
中描述的 NER 标记方案NER标签采用CONLL BIO格式,见https://github.com/yuchenlin/OntoNotes-5.0-NER-BIO and when read properly, each sentence should be a list of tuples, e.g. Get Stanford NER result through NLTK with IOB format
另请参阅 https://github.com/flairNLP/flair/ 使用 Ontonotes 训练 NER 时,它可能会有所帮助。