AWS Spark EMR Numpy 导入错误

AWS Spark EMR Numpy Import Error

我正在尝试在导入 numpy 的 AWS EMR 上提交 Python 脚本,但我得到

ImportError: No module named numpy 

我尝试使用此处的答案之一:No module named numpy when spark-submitting。 我创建了一个 bootstrap_actions.sh 脚本,其中包含

 sudo yum install python-numpy python-scipy -y

和我 运行 创建集群时的脚本,但仍然出现导入错误。关于如何让 import numpy 工作的任何解决方案?

对于 Amazon EMR,您需要使用 bootstrap 个操作。从控制台安装仅更改主节点而不更改任务节点。

runners:
  emr:
    bootstrap:
    - sudo yum install -y python27-numpy

我假设您将使用 Python 2.7。如果您使用 Python 3.x,下面的 link 在 bootstrap 中有使用 PIP 安装的示例。我还假设您使用的是最新的 EMR AMI。

EMR Bootstrapping Cookbook