UIMA RUTA 词表匹配问题

UIMA RUTA wordlist matching issue

我正在尝试使用 UIMA RUTA 2.6.0 匹配一些多词标记。还有一些短语彼此部分相等,例如。 G。在同一个文件中,我有以下条目:"includes the"、"include the"、"in this"、"in the"。

我的输入文件中有下一段文本:“1。"Agents or employees" 包括董事...”。显然,有一个“includes the”的匹配项,但如果 wordlist 中存在其他以上 3 个条目,则不会找到匹配项。此外,wordlist 中这些条目的排序不取决于匹配成功:它总是失败。

而且这个问题不仅仅出现在单个文件中。所以,问题是:我该如何解决?可能是 RUTA 注释器的一些设置?

单词列表中的空格会导致错过匹配项。如果空格不重要,请将配置参数 'dictRemoveWS' 设置为 true。

免责声明:我是 UIMA Ruta 的开发者