将 UIMA RUTA 与现有标注器结合使用

Using UIMA RUTA with Existing Taggers

我最近开始使用 UIMA RUTA。我有几个问题。 1:我们如何在RUTA中使用现有的标注器(DBpedia标注器,MunPx标注器)? 2:我们如何使用 Annotation Writer 格式化输出? 3:RUTA 是否将 .txt 以外的其他文件格式作为输入?

1:如何在RUTA中使用已有的标注器(DBpedia标注器,MunPx标注器)?

UIMA Ruta 不依赖于特定的类型系统。如果您有一个带有不同标记器的管道,并且这些标记器创建了某种类型系统的注释,那么您可以在 Ruta 脚本中使用这些注释编写规则,并在该管道的分析引擎中使用这些规则。根据配置,您可能需要在 Ruta 脚本中导入类型系统。

2: 我们如何使用 Annotation Writer 格式化输出?

如果你引用ruta-core中的AnnoationWriter,那么答案是:你无法格式化输出。您需要使用不同的分析引擎。

3: RUTA 是否将 .txt 以外的其他文件格式作为输入?

一般情况下,Ruta 处理给定的 CAS 对象,该对象由任何文件格式的 reader 填充。在 UIMA Ruta Workbench 中,启动配置支持“.txt”、“.csv”、"html"、"xhtml" 作为纯文本文件格式和“.xmi”、“.xcas” , ".bcas", ".scas" 使用CasIOUtils的SerialFormat检测

免责声明:我是 UIMA Ruta 的开发者