Spacy 模型类型和可用功能映射

Spacy model types and available functionality mapping

Spacy models 与不同的 'types' 相关联,包括:词汇、句法、实体和向量。实体和向量映射到文档中可用特征的方式是显而易见的(实体识别和词向量),但是在解析文本后,词汇和句法如何与文档中可用的特征相关联?例如,多语言模型 'xx_ent_wiki_sm' 不提供 'vocabulary' 那么这是否意味着 is_oov 的令牌将无法使用该模型?我问这个是因为我想在 Spacy 之上提供一个 web 服务,它在不同的语言模型上运行。

"syntax"指的是依赖解析所有相关的语言特征和属性。例如,token.dep_token.headdoc.noun_chunksdoc.sents – 本质上,所有需要依赖项解析的东西(see this page 快速概览)。

"vocabulary" 表示 Vocab 预先填充了一些最常用的词。如果模型没有词汇表,所有标记都将不在词汇表中,并且 return True for is_oov。较大的模型通常也带有较大的词汇量。 sm 模型还应附带最常用词的基本词汇表——但某些数据当前设置的方式可能存在问题,应在模型的下一次更新中修复。