在 config.json 中包含 allennlp 预测参数

Including allennlp predictor arguments in config.json

我正在训练 allennlp crf_tagger。我正在使用基于 SentenceTaggerPredictor。问题是 tokenizer 参数 - 在 SentenceTaggerPredictor 的情况下有一个语言参数。

由于 SentenceTaggerPredictor 将 language="en_core_web_sm" 作为默认参数,当我这样做时

Predictor.from_path("model.tar.gz", "sentence_tagger")

分词器是使用默认语言创建的。但是,如果使用不同的语言对训练数据进行标记化,会发生什么情况。如何在模型 config.json 中指定预测变量的参数,以便使用非默认语言构造 Predictor.from_path

Predictor.from_path() 方法有一个 overrides 参数,您可以在这种情况下使用它。例如,Predictor.from_path("model.tar.gz", "sentence_tagger", overrides={"dataset_reader.tokenizer.language": "en"}).