Eclipse 中的 UIMA RUTA 字典

Dictionary in UIMA RUTA in Eclipse

我是 UIMA Ruta 和 Eclipse 的新手。也许你们中的一些人处理了注释。请告诉我 "dictionary" 这个词在这种情况下是什么意思。提前致谢!

我认为您实际上指的是 UIMA 的 Dictionary Annotator。基本上,它用字典条目注释文档中的单词。有关详细信息,请参阅 User Guide.

在 UIMA Ruta 的上下文中,字典就是单词列表:一种外部资源,用于快速注释命名资源中声明的文本项。 这是一个例子:

WORDLIST FirstNameList = 'FirstNames.txt';
DECLARE FirstName;
Document{-> MARKFAST(FirstName, FirstNameList)};

更多信息,请参考documentation

在 Uima Ruta 中,Dictionary 表示 WordlistWordtable

单词列表:

WORDLIST FirstNameList = 'FirstNames.txt';
DECLARE FirstName;
Document{-> MARKFAST(FirstName, FirstNameList, true, 2)};

此规则注释了文档中列表 'FirstNameList' 中列出的所有名字,并忽略 这种情况,如果单词的长度大于2.

单词表:

WORDTABLE TestTable = 'TestTable.csv';
DECLARE Annotation Struct(STRING first);
Document{-> MARKTABLE(Struct, 1, TestTable, true, 4, ".,-", 2, "first" = 2)};

在此示例中,搜索整个文档以查找所有出现的第一个条目 给定 table 'TestTable' 的列。对于每次出现,Struct 类型的注解是 已创建,其特征 'first' 填充了第二列的条目。此外, 如果单词的长度超过 4,则单词将被忽略。此外,字符 '.'、',' 和 '-' 将被忽略, 但最多两个。

当我们需要使用多个单词列表时 - 使用 TRIE 操作 来提高进程的性能。

Document{->TRIE("FirstNames.txt" = FirstName, "Companies.txt" = Company,'Dictionary.mtwl', true, 4, false, 0, ".,-/")};

此处使用包含名字和公司单词列表的字典 'Dictionary.mtwl' 来注释文档。先前包含在文件 'FirstNames.txt' 中的词已被注释 类型为 FirstName,文件 'Companies.txt' 中的单词类型为 Company。这 如果单词的长度超过 4,则忽略单词的大小写。禁用编辑距离。 当前无法通过参数配置编辑操作的成本。最后一个参数 另外定义了几个将被忽略的字符。