使用大于 RAM 的数据集训练 Spacy 模型

Train Spacy model with larger-than-RAM dataset

我问 this question 以更好地理解使用 DocBin 序列化到磁盘训练 Spacy 模型与通过自定义数据加载功能加载 Example 实例之间的一些细微差别。目标是训练一个 Spacy NER 模型,其中包含更多可以装入 RAM 的数据(或者至少可以通过某种方式避免将整个文件加载到 RAM 中)。尽管自定义数据加载器似乎是实现此目的的一种特定方法,但我写这个问题是为了更笼统地询问:

如何在训练期间不加载整个训练数据集文件来训练 Spacy 模型?

您唯一的选择是使用自定义数据加载器或设置 max_epochs = -1。参见 the docs