uima wordlist 缺少条目

uima wordlist missing entries

使用 uima ruta 2.7.0

DECLARE Substance;
WORDLIST EnzymeSearchList = 'enzyme.txt';
Document{-> MARKFAST(Substance, EnzymeSearchList, true)}; // true ignores case

enzyme.txt 包含 ~ 16.000 个条目(=行)

如果我使用的文件包含很少的条目,例如 5,我的进一步规则工作没有任何问题。一旦我提供了数千个条目的完整列表,我的结果就不完整了。

会不会是达到 WORDLIST 限制导致的问题?或者可能是堆?程序执行时没有失败。

我发现特别指出

There is no maximum size for the wordlists in UIMA Ruta. ... My largest wordlist consisted of about 500k entries

我假设您所说的不完整是指文档中没有 found/annotated 几个(明显的)实体?

这很可能是由 enzyme.txt 文件中的空格引起的。您能否验证这一点,例如,删除此文件中的所有空格并重新测试脚本

如果问题是由空格引起的,solve/avoid 有多种选择。例如,您可以将配置参数 'dictRemoveWS' 设置为 true,以便在加载字典时自动删除空格。

升级到 UIMA Ruta 2.8.1(应该也能解决这个问题)是一个选择吗?