在完整数据集上使用 spacy 进行训练
Training with spacy on full dataset
当我按如下方式训练 spacy 模型时
spacy train config.cfg --paths.train ./train.spacy --paths.dev ./dev.spacy
模型在 train.spacy
数据文件上训练,并在 dev.spacy
上评分。那么output_updated/model-best
就是得分最高的模型
这个最好的模型最终是在训练数据和开发数据的组合上训练的吗?我明白,拆分这些数据集以避免过度拟合是有意义的,但由于训练数据很少,我希望最终模型能够根据我手头的所有数据进行训练。
不,spaCy 不会在训练前自动合并您的数据集 model-best
。如果你想这样做,你需要手动创建一个新的训练数据集。
如果您的数据太少似乎是个好主意,您可能应该优先获取更多数据。
当我按如下方式训练 spacy 模型时
spacy train config.cfg --paths.train ./train.spacy --paths.dev ./dev.spacy
模型在 train.spacy
数据文件上训练,并在 dev.spacy
上评分。那么output_updated/model-best
就是得分最高的模型
这个最好的模型最终是在训练数据和开发数据的组合上训练的吗?我明白,拆分这些数据集以避免过度拟合是有意义的,但由于训练数据很少,我希望最终模型能够根据我手头的所有数据进行训练。
不,spaCy 不会在训练前自动合并您的数据集 model-best
。如果你想这样做,你需要手动创建一个新的训练数据集。
如果您的数据太少似乎是个好主意,您可能应该优先获取更多数据。