如何以客户端模式远程提交到 EMR?

How to spark-submit remotely to EMR as Client mode?

我有一个 ECS 任务配置为 运行 spark-submit 到 EMR 集群。 spark-submit 配置为 Yarn Cluster 模式。

我的流应用程序应该将数据保存到 RDD 上的 Redshift,但我收到了这个错误:

java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com.amazon.ws.emr.hadoop.fs.EmrFileSystem not found
    at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2195)
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2654)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2667)
    at org.apache.hadoop.fs.FileSystem.access0(FileSystem.java:94)
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2703)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2685)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:373)
    at com.databricks.spark.redshift.Utils$.assertThatFileSystemIsNotS3BlockFileSystem(Utils.scala:162)
    at com.databricks.spark.redshift.RedshiftWriter.saveToRedshift(RedshiftWriter.scala:386)
    at com.databricks.spark.redshift.DefaultSource.createRelation(DefaultSource.scala:108)
    at org.apache.spark.sql.execution.datasources.SaveIntoDataSourceCommand.run(SaveIntoDataSourceCommand.scala:45)
    ...

我怀疑是因为“spark.yarn.jars”没有设置,所以它把我的远程服务器的 $SPARK_HOME 库推过去了,它缺少 com.amazon.ws.emr.hadoop.fs.EmrFileSystem.

的罐子

因此,我也尝试在复制 EMR 的主节点的 /usr/lib/spark/jars/* 之后设置 "spark.yarn.jars=hdfs://nodename:8020/user/spark/jars/*.jar"。然后报错:

java.io.InvalidClassException: org.apache.spark.sql.execution.SparkPlan; local class incompatible: stream classdesc serialVersionUID = -7931627949087445875, local class serialVersionUID = -5425351703039338847

我认为远程客户端的 jar 与 EMR 集群的 jar 之间可能存在不匹配。但它们都是 2.4.7 版本。

有人有任何巧妙的解决方案来让我的流式 spark-submit 作业在 EMR 中作为 yarn 客户端模式运行吗?

二进制文件需要与 EMR 集群中的二进制文件相同。

此资源帮助我解决了这个问题: https://docs.dominodatalab.com/en/4.5.2/reference/spark/external_spark/Connecting_to_an_Amazon_EMR_cluster_from_Domino.html