包含下划线字符的实体在 CoreNLP 中被 TokensAnnotation 分割成多个实体
Entities containing underscore character are split into multiple entities by TokensAnnotation in CoreNLP
我观察到 coreNLP 3.9.2 已开始将 enti_ties 拆分为多个,例如 'enti' 、'_'、'ties',同时标记
我尝试使用 tokenize.whitespace 来解决这个问题。但我认为这将停止为 "cant't" 和 "dont't"
拆分令牌
您可以做的一件事是用句点 (.) 替换下划线 (_),解析器(我相信还有分词器)会将其解释为一个实体。
例如enti_ties
> enti.ties
其中后者作为一个实体保留
这并不能完全解决问题,但可以作为紧要关头的解决方法。
我观察到 coreNLP 3.9.2 已开始将 enti_ties 拆分为多个,例如 'enti' 、'_'、'ties',同时标记
我尝试使用 tokenize.whitespace 来解决这个问题。但我认为这将停止为 "cant't" 和 "dont't"
拆分令牌您可以做的一件事是用句点 (.) 替换下划线 (_),解析器(我相信还有分词器)会将其解释为一个实体。
例如enti_ties
> enti.ties
其中后者作为一个实体保留
这并不能完全解决问题,但可以作为紧要关头的解决方法。