AWS 胶水火花提交使用 Spark avro

AWS glue spark submit use Spark avro

如何specify/pass将参数打包到AWS glue spark作业中?

我正在使用 Glue version 1 which supports Spark 2.4.3 并想使用 Spark avro 读取一些 avro 文件

您不能为粘合作业提供包选项,而是从 maven 存储库下载依赖的 jar

然后将这些 jar 放在 s3 中,并将它们作为额外的 jar 传递给您的工作。 这样您就可以在作业中访问这些 jar。

对于 spark2.4.3 你需要传递这个 jar

https://repo1.maven.org/maven2/org/apache/spark/spark-avro_2.12/2.4.3/spark-avro_2.12-2.4.3.jar