训练NER时Spacy语言是独立的吗?
Is Spacy language independent when training NER?
如果我完全从头开始训练 NER 模型,语言是否重要?在 API 中,我设置了语言,但我也为 API 指定了命名实体的跨度。命令行格式更进一步,我为每个句子的每个标记提供 NER 标签。例如,我可以使用 ICU 对日语进行标记,标记标记,然后将其提供给 Spacy 吗?
Spacy 使用 pipeline 由分词器、标记器、解析器和实体识别器组成。这意味着每个级别的输出都将作为输入提供给下一个级别,因此例如,如果我将 en
分词器用于 fr
标记器,则不会发生错误,但 en
语言中的分词异常和规范异常会影响我的 fr
文档,因此准确性可能会降低。
从 Spacy 2.0 开始,setting the language to xx
will train a language independent model, and the pipeline can be customized. While the tokenizer, tagger, and parser are all language dependent, the tagger and parser can be disabled. The tokenizer can be skipped if the GoldParse class is used to provide pre-tokenized input. This is quite easy with the command-line tool. spacy train
has options to disable the tagger and parser and the input format is pre-tokenized. spacy convert
可用于将标准 NER 文件格式转换为 Spacy 的格式。
如果我完全从头开始训练 NER 模型,语言是否重要?在 API 中,我设置了语言,但我也为 API 指定了命名实体的跨度。命令行格式更进一步,我为每个句子的每个标记提供 NER 标签。例如,我可以使用 ICU 对日语进行标记,标记标记,然后将其提供给 Spacy 吗?
Spacy 使用 pipeline 由分词器、标记器、解析器和实体识别器组成。这意味着每个级别的输出都将作为输入提供给下一个级别,因此例如,如果我将 en
分词器用于 fr
标记器,则不会发生错误,但 en
语言中的分词异常和规范异常会影响我的 fr
文档,因此准确性可能会降低。
从 Spacy 2.0 开始,setting the language to xx
will train a language independent model, and the pipeline can be customized. While the tokenizer, tagger, and parser are all language dependent, the tagger and parser can be disabled. The tokenizer can be skipped if the GoldParse class is used to provide pre-tokenized input. This is quite easy with the command-line tool. spacy train
has options to disable the tagger and parser and the input format is pre-tokenized. spacy convert
可用于将标准 NER 文件格式转换为 Spacy 的格式。