在 openNLP 中为 NER 训练无案例模型

train caseless model for NER in openNLP

我想训练提取人名的模型(NER 系统的一部分),但我想让这个模型不区分大小写(我的意思是这个模型不会考虑字母大小写,大小写字母没有区别),因为我有嘈杂的文字。

那么在训练步骤中是否有任何参数可以做到这一点,或者任何其他方式?

如果您必须使用 OpenNLP,我想您可以在 caseless 训练数据上训练新模型。在训练新模型之前,只需使用任何可用的现有训练数据(带有适当的注释等)并将所有内容小写。

或者,如果可以使用 Stanford NER 而不是 OpenNLP,则可以只使用 Stanford NER 的预训练无大小写英语模型:http://nlp.stanford.edu/software/CRF-NER.shtml#Models

请记住,无论采用哪种方式,使用无壳型号都会降低准确性。