命名实体识别:将数据拆分为测试集和训练集

Named Entity Recognition: Splitting data into test and train sets

拟合命名实体识别模型时,确保训练数据中的实体不会在测试数据中重复很重要吗?例如,如果我们有一个相对较小的数据集并且目标是识别人名。现在假设我们有 300 个唯一的人名,但想将我们的提取推广到未来的数据,这些数据可能包含不在我们数据中的 300 个唯一的名字中的人名。重要的是要确保当我们将数据分成训练集和测试集时,在训练集和测试集中都找不到 300 个唯一名称中的任何一个?

重要的是你的实体不在训练集中以检查你的模型是否具有泛化性,但通常你应该有足够的数据和不同的值,通过随机分割你即使没有检查也能得到一个不错的分割肯定会发生。