在 config.json 中包含 allennlp 预测参数
Including allennlp predictor arguments in config.json
我正在训练 allennlp crf_tagger。我正在使用基于
SentenceTaggerPredictor。问题是 tokenizer 参数 - 在 SentenceTaggerPredictor 的情况下有一个语言参数。
由于 SentenceTaggerPredictor 将 language="en_core_web_sm" 作为默认参数,当我这样做时
Predictor.from_path("model.tar.gz", "sentence_tagger")
分词器是使用默认语言创建的。但是,如果使用不同的语言对训练数据进行标记化,会发生什么情况。如何在模型 config.json
中指定预测变量的参数,以便使用非默认语言构造 Predictor.from_path
?
Predictor.from_path()
方法有一个 overrides
参数,您可以在这种情况下使用它。例如,Predictor.from_path("model.tar.gz", "sentence_tagger", overrides={"dataset_reader.tokenizer.language": "en"})
.
我正在训练 allennlp crf_tagger。我正在使用基于 SentenceTaggerPredictor。问题是 tokenizer 参数 - 在 SentenceTaggerPredictor 的情况下有一个语言参数。
由于 SentenceTaggerPredictor 将 language="en_core_web_sm" 作为默认参数,当我这样做时
Predictor.from_path("model.tar.gz", "sentence_tagger")
分词器是使用默认语言创建的。但是,如果使用不同的语言对训练数据进行标记化,会发生什么情况。如何在模型 config.json
中指定预测变量的参数,以便使用非默认语言构造 Predictor.from_path
?
Predictor.from_path()
方法有一个 overrides
参数,您可以在这种情况下使用它。例如,Predictor.from_path("model.tar.gz", "sentence_tagger", overrides={"dataset_reader.tokenizer.language": "en"})
.