aws emr 上的 spark 集群找不到 spark-env.sh

spark cluster on aws emr cant find spark-env.sh

我正在 aws emr 上玩 apache-spark,并尝试使用 this 设置集群以使用 python3、

我将该命令用作 bootstrap 脚本中的最后一个命令

sudo sed -i -e '$a\export PYSPARK_PYTHON=/usr/bin/python3' /etc/spark/conf/spark-env.sh

当我使用它时,集群在 bootstrap 期间崩溃并出现以下错误。

sed: can't read /etc/spark/conf/spark-env.sh: No such file or directory

如何设置才能正确使用python3?

这不是重复的 ,我的问题是集群在 bootstrapping 时没有找到 spark-env.sh 文件,而另一个问题解决了系统未找到 python3

最后我没有使用那个脚本,而是使用了创建阶段可用的 EMR configuration 文件,它通过 spark_submit (在 aws gui 中)给了我正确的配置如果您需要它以更编程的方式用于 pyspark 脚本,您可以使用 os.environ 在 python 脚本

中设置 pyspark python 版本