有没有办法在 google dataproc initialization-actions 中 pip 安装轮子或 tar.gz python 包

Is there a way to pip install a wheel or tar.gz python package in google dataproc initialization-actions

我正在尝试 pip install package psycopg2 Dataproc 集群。我尝试了以下方法,但由于我的工作计算机有防火墙限制,所以这不起作用。

REGION=<region>
gcloud dataproc clusters create my-cluster \
  --image-version 1.4 \
  --metadata 'CONDA_PACKAGES=psycopg2' \
  --metadata 'PIP_PACKAGES=psycopg2' \
  --initialization-actions \
  gs://goog-dataproc-initialization-actions-${REGION}/python/conda-install.sh,gs://goog-dataproc-initialization-actions-${REGION}/python/pip-install.sh

所以现在我已经将 psycopg2.whlpsycopg2.tar.gz 文件放入 GSC。现在我需要在 Dataproc 集群创建期间以某种方式安装它们,在查看此 之后似乎是可行的 谁能提供有关如何通过 Dataproc 初始化操作从 GCS 安装 whltar.gz 文件的更多详细信息。谢谢!

我认为要做到这一点,您可以将初始化操作自定义为

  1. 从gcs下载wheel包到本地文件系统
  2. pip install [local wheel package] 从那里。
  3. 使用 GCS 路径下的自定义初始化操作文件创建集群。

这样做时请遵循best practice