EMR 上的 Beam 抛出 java.util.ServiceConfigurationError

Beam on EMR throws a java.util.ServiceConfigurationError

我有一个 Apache Beam 应用程序(使用 beam 版本 2.23.0),我正尝试在 AWS EMR(emr-5.30.1) 预装了 Flink(1.10.0)。

当我将应用程序部署到本地 docker flink 集群时,应用程序 运行 没有问题。但是当我这样做时

flink run -m yarn-cluster -c my_class my_jar.jar

在EMR集群的主节点上

我明白了

java.util.ServiceConfigurationError: com.fasterxml.jackson.databind.Module: Provider com.fasterxml.jackson.module.jaxb.JaxbAnnotationModule not a subtype
at java.util.ServiceLoader.fail(ServiceLoader.java:239)
at java.util.ServiceLoader.access0(ServiceLoader.java:185)
at java.util.ServiceLoader$LazyIterator.nextService(ServiceLoader.java:376)
at java.util.ServiceLoader$LazyIterator.next(ServiceLoader.java:404)
at java.util.ServiceLoader.next(ServiceLoader.java:480)
at com.fasterxml.jackson.databind.ObjectMapper.findModules(ObjectMapper.java:1054)
at org.apache.beam.sdk.options.PipelineOptionsFactory.<clinit>(PipelineOptionsFactory.java:471)
at org.myapp.main(MainApp.java:78)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at org.apache.flink.client.program.PackagedProgram.callMainMethod(PackagedProgram.java:321)
at org.apache.flink.client.program.PackagedProgram.invokeInteractiveModeForExecution(PackagedProgram.java:205)
at org.apache.flink.client.ClientUtils.executeProgram(ClientUtils.java:138)
at org.apache.flink.client.cli.CliFrontend.executeProgram(CliFrontend.java:664)
at org.apache.flink.client.cli.CliFrontend.run(CliFrontend.java:213)
at org.apache.flink.client.cli.CliFrontend.parseParameters(CliFrontend.java:895)
at org.apache.flink.client.cli.CliFrontend.lambda$main(CliFrontend.java:968)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:422)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1844)
at org.apache.flink.runtime.security.HadoopSecurityContext.runSecured(HadoopSecurityContext.java:41)
at org.apache.flink.client.cli.CliFrontend.main(CliFrontend.java:968)

似乎问题出在 org.apache.beam.sdk.options.PipelineOptionsFactory.<clinit>(PipelineOptionsFactory.java:471) 但我不清楚是什么导致了这种行为。

谁能告诉我这是什么原因造成的?

提前致谢!

这可能是类加载问题。

在EMR Flink EC2实例上,已经有一些jar,这些库是在你自己的依赖之前加载的。因此,在运行时使用的版本是 EMR 提供的版本,而不是您自己的依赖项 pom.xml.

有多种解法:

  • 在您的 pom.xml 中,使用与 EMR 提供的版本相同的版本
  • 在 EC2 实例中,将 EMR 版本替换为您的
  • 更改库加载顺序
  • 无论采用何种解决方案,您都需要向 Flink 发送所有必需的依赖项,而不仅仅是包含您自己的代码的 jar