Dataproc 未从自定义 Conda 渠道安装自定义 Conda 包

Dataproc is not installing custom Conda package from custom Conda channel

我正在尝试在 GCP 中启动一个单节点 Dataproc“集群”,它从 conda-forge 和自定义 Conda 频道安装额外的包。我 运行 的 gcloud 命令是:

gcloud beta dataproc clusters create MY_CLUSTER_NAME \
  --enable-component-gateway \
  --bucket MY_GCS_BUCKET \
  --region us-central1 \
  --subnet default \
  --zone us-central1-a \
  --single-node \
  --master-machine-type n1-standard-4 \
  --master-boot-disk-size 500 \
  --image-version 1.5-ubuntu18 \
  --properties spark:spark.jars.packages=org.apache.spark:spark-avro_2.12:2.4.4,spark-env:spark.jars.packages=org.apache.spark:spark-avro_2.12:2.4.4 \
  --optional-components ANACONDA,JUPYTER \
  --max-idle 7200s \
  --scopes 'https://www.googleapis.com/auth/cloud-platform' \
  --project MY_PROJECT_ID \
  --metadata='CONDA_PACKAGES=pandas matplotlib seaborn scikit-learn MY_CUSTOM_PACKAGE' \
  --metadata='CONDA_CHANNELS=conda-forge https://MY_CUSTOM_CONDA_CHANNEL'

我已验证我可以在本地 conda install -c https://MY_CUSOMT_CONDA_CHANNEL MY_CUSTOM_PACKAGE,并且正在安装其他软件包。在搜索集群的日志时,我没有找到有关安装其他 conda 软件包的条目。

问题:

  1. 在哪里可以找到有助于我调试此问题的日志?
  2. 是不是上面的命令有问题?

您似乎在创建集群时没有添加 conda-install.sh init 操作,请参阅此 doc 中的更多详细信息,例如:

gcloud dataproc clusters create my-cluster \
    --image-version=1.4 \
    --region=${REGION} \
    --metadata='CONDA_PACKAGES=pandas matplotlib seaborn scikit-learn MY_CUSTOM_PACKAGE' \
    --metadata='CONDA_CHANNELS=conda-forge https://MY_CUSTOM_CONDA_CHANNEL' \
    --initialization-actions=gs://goog-dataproc-initialization-actions-${REGION}/python/conda-install.sh

您应该能够在 /var/log/dataproc-initialization-script-0.log 找到初始化操作日志,在 doc 中查看更多详细信息。