尝试在 AWS emr 到运行 Python 脚本上创建临时集群时遇到错误

Question

我是 aws 的新手，正在尝试在 AWS emr 上创建一个临时集群到运行一个 Python 脚本。我只想运行将处理文件并自动终止集群 post 完成的 python 脚本。我还创建了一个密钥对并指定了相同的密钥对。

命令如下：

aws emr create-cluster --name "test1-cluster" --release-label emr-5.5.0 --name pyspark_analysis --ec2-attributes KeyName=k-key-pair --applications Name=Hadoop Name=Hive Name=Spark --instance-groups --use-default-roles --instance-type m5-xlarge --instance-count 2 --region us-east-1 --log-uri s3://k-test-bucket-input/logs/ --steps Type=SPARK, Name="pyspark_analysis", ActionOnFailure=CONTINUE, Args=[-deploy-mode,cluster, -master,yarn, -conf,spark.yarn.submit.waitAppCompletion=true, -executor-memory,1g, s3://k-test-bucket-input/word_count.py, s3://k-test-bucket-input/input/a.csv, s3://k-test-bucket-input/output/ ] --auto-terminate

错误信息

zsh: bad pattern: Args=[

我试过的：

我查看了参数和空格，以及是否引入了意外字符，但看起来并不像。我的语法肯定是错误的，但不确定我遗漏了什么。

预期执行什么命令：

它预期通过读取输入文件 a.csv 并在 b.csv

中生成输出来执行 word_count.py

Answer 1

我认为问题在于 --steps 中空格的使用。我格式化了命令，所以它更容易阅读空格在哪里（或它们的运气）：

aws emr create-cluster \
    --name "test1-cluster" \
    --release-label emr-5.5.0 \
    --name pyspark_analysis \
    --ec2-attributes KeyName=k-key-pair \
    --applications Name=Hadoop Name=Hive Name=Spark \
    --instance-groups --use-default-roles \
    --instance-type m5-xlarge --instance-count 2 \
    --region us-east-1 --log-uri s3://k-test-bucket-input/logs/ \
    --steps Type=SPARK,Name="pyspark_analysis",ActionOnFailure=CONTINUE,Args=[-deploy-mode,cluster,-master,yarn,-conf,spark.yarn.submit.waitAppCompletion=true,-executor-memory,1g,s3://k-test-bucket-input/word_count.py,s3://k-test-bucket-input/input/a.csv,s3://k-test-bucket-input/output/] \
    --auto-terminate

Answer 2

尝试将所有内容括在引号中

aws emr create-cluster \
    --name "test1-cluster" \
    --release-label emr-5.5.0 \
    --name pyspark_analysis \
    --ec2-attributes KeyName=k-key-pair \
    --applications Name=Hadoop Name=Hive Name=Spark \
    --instance-groups --use-default-roles \
    --instance-type m5-xlarge --instance-count 2 \
    --region us-east-1 --log-uri s3://k-test-bucket-input/logs/ \
    --steps Type="SPARK",Name="pyspark_analysis",ActionOnFailure="CONTINUE",Args=[-deploy-mode,cluster,-master,yarn,-conf,spark.yarn.submit.waitAppCompletion=true,-executor-memory,1g,s3://k-test-bucket-input/word_count.py,s3://k-test-bucket-input/input/a.csv,s3://k-test-bucket-input/output/] \
    --auto-terminate

访问此处了解更多信息 https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-spark-submit-step.html

是的，可以使用 spark

aws emr create-cluster --name "Add Spark Step Cluster" --release-label emr-5.30.1 --applications Name=Spark \
--ec2-attributes KeyName=myKey --instance-type m5.xlarge --instance-count 3 \
--steps Type=Spark,Name="Spark Program",ActionOnFailure=CONTINUE,Args=[--class,org.apache.spark.examples.SparkPi,/usr/lib/spark/examples/jars/spark-examples.jar,10] --use-default-roles

尝试在 AWS emr 到运行 Python 脚本上创建临时集群时遇到错误

Facing error while trying to create transient cluster on AWS emr to run Python script

python

amazon-web-services

amazon-emr

apache-spark

pyspark

尝试在 AWS emr 到 运行 Python 脚本上创建临时集群时遇到错误

Facing error while trying to create transient cluster on AWS emr to run Python script

python

amazon-web-services

amazon-emr

apache-spark

pyspark

尝试在 AWS emr 到运行 Python 脚本上创建临时集群时遇到错误