UIMA DUCC vs UIMA 是 Haoop
UIMA DUCC vs UIMA on Haoop
我正在尝试设计基于 UIMA 的分布式可扩展管道。我应该如何决定在 Hadoop 上使用 UIMA DUCC 还是 UIMA?如果我在 UIMA DUCC 而不是 Hadoop 上构建它,反之亦然,我会错过什么?
你可以检查这个link
https://uima.apache.org/doc-uimaducc-whatitam.html
在页面底部您会发现不同之处。
一个维度是应用特性。对于 I/O 密集型应用程序,Hadoop 将具有很大的优势。对于需要 运行 在不同线程中进行多个管道副本以实现高 CPU 利用率的大内存应用程序,DUCC 应该有很大的优势。
另一个方面是利用 UIMA 与利用 Hadoop。 DUCC 建立在基本 UIMA 功能之上,提供许多横向扩展选项、内置性能指标和调试支持,所有这些都基于核心 UIMA 组件。 UIMA 流水线越复杂,DUCC 的优势就越大;例如,复杂的处理流程可以直接在 DUCC 中实现,但可能必须转换为 map-reduce。
对于那些拥有足够 Hadoop 专业知识的人来说,一个相对简单的 UIMA 分析可以很容易地集成到现有的 Hadoop 商店中,而无需学习很多关于 UIMA 的知识。
我正在尝试设计基于 UIMA 的分布式可扩展管道。我应该如何决定在 Hadoop 上使用 UIMA DUCC 还是 UIMA?如果我在 UIMA DUCC 而不是 Hadoop 上构建它,反之亦然,我会错过什么?
你可以检查这个link
https://uima.apache.org/doc-uimaducc-whatitam.html
在页面底部您会发现不同之处。
一个维度是应用特性。对于 I/O 密集型应用程序,Hadoop 将具有很大的优势。对于需要 运行 在不同线程中进行多个管道副本以实现高 CPU 利用率的大内存应用程序,DUCC 应该有很大的优势。
另一个方面是利用 UIMA 与利用 Hadoop。 DUCC 建立在基本 UIMA 功能之上,提供许多横向扩展选项、内置性能指标和调试支持,所有这些都基于核心 UIMA 组件。 UIMA 流水线越复杂,DUCC 的优势就越大;例如,复杂的处理流程可以直接在 DUCC 中实现,但可能必须转换为 map-reduce。
对于那些拥有足够 Hadoop 专业知识的人来说,一个相对简单的 UIMA 分析可以很容易地集成到现有的 Hadoop 商店中,而无需学习很多关于 UIMA 的知识。