包含下划线字符的实体在 CoreNLP 中被 TokensAnnotation 分割成多个实体

Entities containing underscore character are split into multiple entities by TokensAnnotation in CoreNLP

我观察到 coreNLP 3.9.2 已开始将 enti_ties 拆分为多个,例如 'enti' 、'_'、'ties',同时标记

我尝试使用 tokenize.whitespace 来解决这个问题。但我认为这将停止为 "cant't" 和 "dont't"

拆分令牌

您可以做的一件事是用句点 (.) 替换下划线 (_),解析器(我相信还有分词器)会将其解释为一个实体。

例如enti_ties > enti.ties 其中后者作为一个实体保留

这并不能完全解决问题,但可以作为紧要关头的解决方法。