在 Dataproc 上提交带有配置文件的 pyspark 作业

Submit a pyspark job with a config file on Dataproc

我是 GCP 的新手,我正在为在 Dataproc 中提交 pyspark 作业而苦苦挣扎。

我有一个 python 脚本依赖于 config.yaml 文件。我注意到当我提交作业时,所有内容都在 /tmp/ 下执行。

如何在 /tmp/ 文件夹中提供该配置文件?

目前,我收到此错误:

12/22/2020 10:12:27 AM root         INFO     Read config file.
Traceback (most recent call last):
  File "/tmp/job-test4/train.py", line 252, in <module>
    run_training(args)
  File "/tmp/job-test4/train.py", line 205, in run_training
    with open(args.configfile, "r") as cf:
FileNotFoundError: [Errno 2] No such file or directory: 'gs://network-spark-migrate/model/demo-config.yml'

提前致谢

下面的片段对我有用:

gcloud dataproc jobs submit pyspark gs://network-spark-migrate/model/train.py --cluster train-spark-demo --region europe-west6 --files=gs://network-spark-migrate/model/demo-config.yml -- --configfile ./demo-config.yml