nifi pyspark - "no module named boto3"

nifi pyspark - "no module named boto3"

我正在尝试 运行 我创建的一个 pyspark 作业,它使用 boto3 库从 s3 下载和上传数据。虽然工作 运行 在 pycharm 中很好,但当我尝试使用此模板 https://github.com/Teradata/kylo/blob/master/samples/templates/nifi-1.0/template-starter-pyspark.xml

在 nifi 中 运行 它时

ExecutePySpark 错误 "No module named boto3"。

我确保它安装在我的活动 conda 环境中。

任何想法,我确定我遗漏了一些明显的东西。

这是 nifi spark 处理器的图片。

谢谢, 蒂姆

PySpark 应该 运行 的 Python 环境是通过 PYSPARK_PYTHON 变量配置的。

  • 进入Spark安装目录
  • 转到conf
  • 编辑spark-env.sh
  • 添加这一行:export PYSPARK_PYTHON=PATH_TO_YOUR_CONDA_ENV