使用 Spark --jars 选项将 PySpark 作业提交到集群

Submit a PySpark job to a cluster with Spark --jars option

我希望能够在提交 PySpark 作业时指定 --jars PySpark 提交选项。但是不支持此选项。有替代方案吗?

感谢您提出这个问题,您似乎发现了一个错误,我们还没有连接必要的标志;目的确实是在控制台 GUI 和 gcloud beta dataproc jobs submit pyspark 中提供一个 --jars 选项,我们希望能够在几周内在下一个次要版本中部署修复程序。

与此同时,您可以尝试将任何 jarfile 依赖项简单地转储到主节点上的 /usr/lib/hadoop/lib/ 和工作节点上 and/or,可能使用 initialization actions 在集群上自动下载 jarfile -部署时间,然后它将自动出现在您的 Spark(和 Hadoop)作业的类路径中。