GATE Developer中如何合理安排流水线的处理资源?

How to properly arrange the processing resources of a pipeline in GATE Developer?

GATE 管道中处理资源的安排对于成功注释可能至关重要。所以我想知道如何合理安排管道的处理资源。

GATE PR 应该按照合乎逻辑的方式排列。通常看起来像:

a) 清理以前创建的注释(注释集重置 PR)

b) 标记化文本 (Tokenizer PR)

c) 将文本拆分为句子(Sentence Splitter PR)。

e) 分配 POS 标签 (POS Tagger PR) 等等...

如果您从 GATE Developer 加载默认的 ANNIE 应用程序(文件->现成的应用程序->ANNIE->双击 GATE Developer 左侧 "Application" 节点下的 "ANNIE",您将看到典型的流水线 PR 序列。

你可以像这样安排 GATE PR,如果你想创建一个 GAPP 文件并且你想在文档上处理它然后

  1. 文档重置 PR

2.Annie 英语分词器

3.Annie 地名词典(如果有)

4.Annie 句子 Spilter

5.Annie 词性标注器

所以,有基本的步骤。 如果你有 Ontology ,那么你可以创建一个单独的应用程序 RootFinder ,

在那里你可以给英语,词性标注器,形态分析器。

在那之后在第一个应用程序中在 Pos Tagger 之后

  1. OntoRootGazetter ,您可以在那里提供 ontology 和 rootFinder 应用程序。

7 .然后使用灵活的地名词典并作为运行时参数添加,'Token.Root' .所以,这样你就可以创建一个新的管道。