How/are 你有 DKPro 库的文件吗?

How/are you supposed to use the DKPro libraries with UIMA Ruta?

我已经研究了默认的 UIMA Ruta Workbench Eclipse 项目,足以显着理解它的活动部分 - 例如,为什么 input/output/ 文件夹的行为如此,如何使用 jcasgen 和其他 Maven 插件等完成项目

但即使经过几个小时的研究项目并使用 Maven 尝试让它工作,我仍然在做一些非常简单的事情时遇到很多麻烦:使用 DKPro 库(尤其是类型)来自 Ruta 脚本。

我的基本问题是:在 Ruta 脚本中使用来自 DKPro 和 TC 库的类型和分析组件的阻力最小的路径是什么?

我的具体问题是:

  1. 我注意到在许多 api jar 的 desc/type 文件夹中有 TypeSystemDescription XML 文件似乎适合使用与鲁塔。有什么方法可以为 DKPro 组件获取 "master" TypeSystemDescription XML 文件吗?

  2. 有没有同时使用RutaDKPro的复杂项目我可以研究一下?

  3. 您使用 Ruta 脚本所做的 AnalysisEngine 与您在 Java 中编写的 Analysis Component 之间有什么区别?

已编辑 以减少挫折感

实际上,Ruta 和 DKPro 的人一起做工作坊,然后愉快地围坐在篝火旁——或者至少在鸡尾酒吧里喝点酒。不幸的是,我们并不经常这样做。

根据您提出的问题的种类和数量要求提供教程 ;)

您看过我们 joint workshop at GSCL 2013 中的幻灯片和示例了吗?

它包括几个如何一起使用 DKPro Core 和 Ruta 的示例。在这些示例中,有一个 Maven 项目负责获取 DKPro 核心依赖项,然后单独的 Ruta 项目依赖于该 Maven 项目并使用分析引擎。

拥有一个同时具有 Ruta 和 Maven 特性的项目也应该可行。

  1. 为类路径中的所有 DKPro Core 类型(或者更确切地说,为类路径中所有支持 uimaFIT 的类型)获取单个类型描述符的方法是

    import org.apache.uima.fit.factory.TypeSystemDescriptionFactory;
    
    OutputStream os = ...
    TypeSystemDescriptionFactory.createTypeSystemDescription().toXML(os);
    
  2. 查看 GSCL 2013 tutorial examples

  3. AnalysisComponent代表内部的观点,即组件开发者的观点(框架内的观点)。 AnalysisEngine 表示从外部看的视图,即来自 component/workflow 的用户的视图。但是,通常人们会说 "I'm implementing a new analysis engine",意思是 "I'm going to subclass JCasAnnotator_ImplBase (an implementation of AnalysisComponent)"。另请参阅 UIMA 开发人员邮件列表中的 this post

披露:我是 DKPro Core 开发人员和 Apache UIMA 开发人员。