Stanford CoreNLP Train 自定义 NER 模型

Stanford CoreNLP Train custom NER model

我正在通过使用 crf 训练自定义模型来进行一些测试,并且由于我没有合适的训练文件,所以我想自己制作一个包含 5 个标签和 10 个单词的列表,然后开始计划是在未来用更多的传入数据不断改进模型。但是我得到的结果有很多误报(它标记了许多与训练文件中的原始单词无关的单词)我想因为创建的模型是概率性的并且考虑的不仅仅是单独的单词

假设我想训练 corenlp 检测一小部分单词而不关心上下文,是否有一些特殊设置?如果没有,有没有办法计算出需要多少数据才能得到一个准确的模型?

经过一些测试和研究,我发现一个非常适合我的案例的选择是 RegexNER,它以确定性的方式工作,也可以与 NER 结合使用。到目前为止,尝试使用较小的规则集并且效果很好。下一步是确定在高流量压力场景(我感兴趣的场景)中的可扩展性和可用性如何,并与基于 python

的其他解决方案进行比较