命名实体识别：将数据拆分为测试集和训练集

Named Entity Recognition: Splitting data into test and train sets

named-entity-recognition
training-data

拟合命名实体识别模型时，确保训练数据中的实体不会在测试数据中重复很重要吗？例如，如果我们有一个相对较小的数据集并且目标是识别人名。现在假设我们有 300 个唯一的人名，但想将我们的提取推广到未来的数据，这些数据可能包含不在我们数据中的 300 个唯一的名字中的人名。重要的是要确保当我们将数据分成训练集和测试集时，在训练集和测试集中都找不到 300 个唯一名称中的任何一个？

重要的是你的实体不在训练集中以检查你的模型是否具有泛化性，但通常你应该有足够的数据和不同的值，通过随机分割你即使没有检查也能得到一个不错的分割肯定会发生。

命名实体识别：将数据拆分为测试集和训练集

Named Entity Recognition: Splitting data into test and train sets

named-entity-recognition

training-data