尝试在 Amazon EMR 上为 Pyspark 运行 安装 pandas

Trying to install pandas for Pyspark running on Amazon EMR

这个问题确实适用于任何 Python 包。我有一个 bootstrap 脚本在我的 Spark 作业之前运行,我假设我需要在该脚本中安装 pandas。我尝试了很多不同的东西,但似乎没有任何效果(pip 安装、easy_install、yum 安装等)。在 Spark pandas 导入失败时作业全部失败。我是 运行 EMR v5.12.1 和 Python 3.4.

sudo python3 -m pip install pandas

这就是我们在 bootstarp.sh 中写的安装 pandas