带有 Spark 的 UIMA

UIMA with Spark

here所述 UIMA 和 Spark 在分布式基础设施方面有一些重叠。我打算将 UIMA 与 spark 一起使用。 (现在我要转到 UIMAFit) 谁能告诉我在使用 spark 开发 uima 时我们真正面临的问题是什么。 以及可能的遭遇是什么。 (对不起,我没有对此做过任何研究。)

主要问题是访问对象,因为 UIMA 会在 运行 分析引擎时尝试重新实例化对象。如果对象具有本地引用,那么从远程 spark 集群访问时就会出现问题。某些 RDD 函数可能无法在 UIMA 上下文中工作。但是,如果您不使用单独的远程集群,那么就不会有问题。 (我说的是 uima-fit 2.2)