尝试在 Amazon EMR 上为 Pyspark 运行 安装 pandas
Trying to install pandas for Pyspark running on Amazon EMR
这个问题确实适用于任何 Python 包。我有一个 bootstrap 脚本在我的 Spark 作业之前运行,我假设我需要在该脚本中安装 pandas。我尝试了很多不同的东西,但似乎没有任何效果(pip 安装、easy_install、yum 安装等)。在 Spark pandas 导入失败时作业全部失败。我是 运行 EMR v5.12.1 和 Python 3.4.
sudo python3 -m pip install pandas
这就是我们在 bootstarp.sh
中写的安装 pandas
。
这个问题确实适用于任何 Python 包。我有一个 bootstrap 脚本在我的 Spark 作业之前运行,我假设我需要在该脚本中安装 pandas。我尝试了很多不同的东西,但似乎没有任何效果(pip 安装、easy_install、yum 安装等)。在 Spark pandas 导入失败时作业全部失败。我是 运行 EMR v5.12.1 和 Python 3.4.
sudo python3 -m pip install pandas
这就是我们在 bootstarp.sh
中写的安装 pandas
。