如何在 UIMA DUCC 中定义多个 CAS 消费者?

How to define multiple CAS Consumers in UIMA DUCC?

我正在 UIMA DUCC 中设计一个文本挖掘管道,如下所示:

|-----------------|
|                 | ==CAS_1==> Pipeline A ==> Consumer A 
| CAS Multiplier  | ==CAS_2==> Pipeline B ==> Consumer B
|                 | ==CAS_3==> Pipeline C ==> Consumer C 
|-----------------|

我打算 运行 并行流水线 A、B 和 C。我相信它可以使用流量控制器来完成。我的理解对吗?如果是,我如何定义多个 CC。职位描述文件中的 process_descriptor_CC 字段只占用一个消费者。我们如何传递多个消费者及其管道关联?

做一个flowcontroller,添加cas consumer作为委托分析引擎。 通过这种方式,您可以添加任意数量的内容。 然后在部署描述符中给出 flowcontroller 的路径,并在作业规范中给出此路径。

如果打算处理大量文档 具有高吞吐量然后三个管道,每个包括它的 CAS 消费者,都在 AE (process_descriptor_AE) 中,并且 AE 将包括一个自定义流控制器来路由 CAS 如预期的。 AE 中的 CAS 会 运行 一次一个,但多个 CM+AE threads can be 运行 parallel by specifying the number JP 线程数 (process_thread_count) 大于 1。

首先你需要了解流控制器并使用流控制器创建聚合描述符并添加cas消费者描述符,就像流控制器中的分析引擎描述符一样。

在此之后,您的场景有两个用例:

  1. 仅使用process_descriptor_CR和process_descriptor_AE并在AE中使用基于流量控制器的聚合描述符。

  2. 仅使用 process_descriptor_CR 和 process_dd,并在部署描述符中使用基于流控制器的聚合描述符。