使用 'en_core_web_sm' 作为基础模型训练 Spacy NER 模型

Train Spacy NER model with 'en_core_web_sm' as base model

我正在使用 Spacy 用新实体训练我的 NER 模型，我正在使用 en_core_web_sm 模型作为我的基础模型，因为我还想检测基本实体（ORG、PERSON、DATE、等等）。我运行 en_core_web_sm 对未标记的句子建模，并将它们的注释添加到我的训练集中。

完成之后，现在我想为新实体创建训练数据。例如，我想添加一个名为 FRUIT 的新实体。我有一堆句子（除了之前使用 en_core_web_sm 注释的句子）要注释。句例为：

"James likes eating apples".

我的问题是：我是否还需要将“James”注释为PERSON 以及将“apples”注释为 FRUIT？或者我是否不需要这样做，因为我已经有了另一组句子，这些句子之前使用 en_core_web_sm 模型用 PERSON 实体注释。

简答：

是的，如果您想保持模型的精确性。

长答案：

NER 是使用机器学习算法实现的。这些基于学习的分布和周围的令牌将令牌分类为实体。

因此，如果您提供了多个带注释的文本样本，而没有将某个词（标记）标记为它通常代表的特定实体，则可能会通过向您的模型提供该标记不重要的样本来影响您的模型精度。