如何在 Dataproc 集群启动时自动安装 Python 库?

How do I install Python libraries automatically on Dataproc cluster startup?

如何在 Dataproc 集群启动时自动在我的 Dataproc 集群上安装 Python 库?这将使我省去手动登录主 and/or 工作节点以手动安装我需要的库的麻烦。

如果知道此自动安装是否可以在主机上而不是工人上安装东西,那就太好了。

初始化操作是执行此操作的最佳方式。初始化操作是 shell 脚本,在创建集群时是 运行。这将允许您自定义集群,例如安装 Python 库。这些脚本必须存储在 Google Cloud Storage 中,并且可以在通过 Google Cloud SDK 或 Google Developers Console 创建集群时使用。

这是一个示例初始化操作,用于在主节点上创建 Python pandas

#!/bin/sh
ROLE=$(/usr/share/google/get_metadata_value attributes/role)
if [[ "${ROLE}" == 'Master' ]]; then 
  apt-get install python-pandas -y
fi

从这个脚本中可以看出,可以通过 /usr/share/google/get_metadata_value attributes/role 识别节点的角色,然后专门在主(或工作)节点上执行操作。

详情请见Google Cloud Dataproc Documentation