在完整数据集上使用 spacy 进行训练

Training with spacy on full dataset

当我按如下方式训练 spacy 模型时

spacy train config.cfg --paths.train ./train.spacy --paths.dev ./dev.spacy

模型在 train.spacy 数据文件上训练,并在 dev.spacy 上评分。那么output_updated/model-best就是得分最高的模型

这个最好的模型最终是在训练数据和开发数据的组合上训练的吗?我明白,拆分这些数据集以避免过度拟合是有意义的,但由于训练数据很少,我希望最终模型能够根据我手头的所有数据进行训练。

不,spaCy 不会在训练前自动合并您的数据集 model-best。如果你想这样做,你需要手动创建一个新的训练数据集。

如果您的数据太少似乎是个好主意,您可能应该优先获取更多数据。