使用 Stanford corenlp 训练 caseless NER 模型

Training caseless NER models with Stanford corenlp

我知道如何按规定训练 NER 模型 here and have a very successful one in fact. I also know about the 3 provided caseless models as talked about here。但是如果我想训练我自己的 caseless 模型,那有什么诀窍呢?我有一堆全部大写的文件用于训练。我是否使用相同的培训过程,或者是否有 special/different 无壳模型的功能,或者是否有需要设置的属性?我找不到关于所提供的无壳模型是如何创建的描述。

我们的模型只有一个 属性 变化,那就是您希望它调用一个函数,在处理单词进行分类之前删除大小写信息。我们用这个 属性 值(它也将一些词映射到美国拼写)来做到这一点:

wordFunction = edu.stanford.nlp.process.LowercaseAndAmericanizeFunction

但也有简单的:

wordFunction = edu.stanford.nlp.process.LowercaseFunction

有更多自动的东西来决定文档格式(hard/soft 换行符)、大小写,甚至语言会很好,但目前我们没有这些....