在 openNLP 中为 NER 训练无案例模型

train caseless model for NER in openNLP

我想训练提取人名的模型（NER 系统的一部分），但我想让这个模型不区分大小写（我的意思是这个模型不会考虑字母大小写，大小写字母没有区别），因为我有嘈杂的文字。

那么在训练步骤中是否有任何参数可以做到这一点，或者任何其他方式？

如果您必须使用 OpenNLP，我想您可以在 caseless 训练数据上训练新模型。在训练新模型之前，只需使用任何可用的现有训练数据（带有适当的注释等）并将所有内容小写。

或者，如果可以使用 Stanford NER 而不是 OpenNLP，则可以只使用 Stanford NER 的预训练无大小写英语模型：http://nlp.stanford.edu/software/CRF-NER.shtml#Models

请记住，无论采用哪种方式，使用无壳型号都会降低准确性。