训练自定义 NER Spacy 模型需要多少数据/上下文？

How much data / context needed to train custom NER Spacy model?

我正在尝试使用 spacy 和命名实体识别从 CV 中提取以前的职位。

我想训练 spacy 来检测自定义命名实体类型：'JOB'。为此，我从 https://www.careerbuilder.com/browse/titles/ 中收集了大约 800 个职位名称，我可以将其用作训练数据。

在我的 spacy 训练数据中，我是否需要将这些职位名称整合到添加的句子中以提供上下文？一般来说，在简历中，职位名称有点独立，并不是完整句子的一部分。

此外，如果我需要为 800 个标题中的每一个提供连贯的上下文，这对于我正在尝试做的事情来说太 time-consuming 了，所以也许除了 NER 之外还有其他解决方案吗？

通常，命名实体识别依赖于单词的上下文，否则模型将无法检测到以前未见过的单词中的实体。因此，标题列表不会帮助您训练任何模型。您可能更愿意运行字符串匹配来查找 CV 文档中的 800 个标题中的任何一个，您甚至可以保证找到所有这些标题 - 但是没有未知标题。

如果你能找到 800 个（或更少）真实的 CV 并将工作名称替换为你列表中的名称（或其他！），那么你就可以训练一个能够进行 NER 的模型了。我想这就是要走的路。只需从网上下载尽可能多的免费简历，看看它能给你带来什么。如果数据不够，您可以扩充它，例如，将数据中的职位与您列表中的一些职位进行交换。