Dataproc 未从自定义 Conda 渠道安装自定义 Conda 包
Dataproc is not installing custom Conda package from custom Conda channel
我正在尝试在 GCP 中启动一个单节点 Dataproc“集群”,它从 conda-forge
和自定义 Conda 频道安装额外的包。我 运行 的 gcloud 命令是:
gcloud beta dataproc clusters create MY_CLUSTER_NAME \
--enable-component-gateway \
--bucket MY_GCS_BUCKET \
--region us-central1 \
--subnet default \
--zone us-central1-a \
--single-node \
--master-machine-type n1-standard-4 \
--master-boot-disk-size 500 \
--image-version 1.5-ubuntu18 \
--properties spark:spark.jars.packages=org.apache.spark:spark-avro_2.12:2.4.4,spark-env:spark.jars.packages=org.apache.spark:spark-avro_2.12:2.4.4 \
--optional-components ANACONDA,JUPYTER \
--max-idle 7200s \
--scopes 'https://www.googleapis.com/auth/cloud-platform' \
--project MY_PROJECT_ID \
--metadata='CONDA_PACKAGES=pandas matplotlib seaborn scikit-learn MY_CUSTOM_PACKAGE' \
--metadata='CONDA_CHANNELS=conda-forge https://MY_CUSTOM_CONDA_CHANNEL'
我已验证我可以在本地 conda install -c https://MY_CUSOMT_CONDA_CHANNEL MY_CUSTOM_PACKAGE
,并且正在安装其他软件包。在搜索集群的日志时,我没有找到有关安装其他 conda 软件包的条目。
问题:
- 在哪里可以找到有助于我调试此问题的日志?
- 是不是上面的命令有问题?
您似乎在创建集群时没有添加 conda-install.sh
init 操作,请参阅此 doc 中的更多详细信息,例如:
gcloud dataproc clusters create my-cluster \
--image-version=1.4 \
--region=${REGION} \
--metadata='CONDA_PACKAGES=pandas matplotlib seaborn scikit-learn MY_CUSTOM_PACKAGE' \
--metadata='CONDA_CHANNELS=conda-forge https://MY_CUSTOM_CONDA_CHANNEL' \
--initialization-actions=gs://goog-dataproc-initialization-actions-${REGION}/python/conda-install.sh
您应该能够在 /var/log/dataproc-initialization-script-0.log
找到初始化操作日志,在 doc 中查看更多详细信息。
我正在尝试在 GCP 中启动一个单节点 Dataproc“集群”,它从 conda-forge
和自定义 Conda 频道安装额外的包。我 运行 的 gcloud 命令是:
gcloud beta dataproc clusters create MY_CLUSTER_NAME \
--enable-component-gateway \
--bucket MY_GCS_BUCKET \
--region us-central1 \
--subnet default \
--zone us-central1-a \
--single-node \
--master-machine-type n1-standard-4 \
--master-boot-disk-size 500 \
--image-version 1.5-ubuntu18 \
--properties spark:spark.jars.packages=org.apache.spark:spark-avro_2.12:2.4.4,spark-env:spark.jars.packages=org.apache.spark:spark-avro_2.12:2.4.4 \
--optional-components ANACONDA,JUPYTER \
--max-idle 7200s \
--scopes 'https://www.googleapis.com/auth/cloud-platform' \
--project MY_PROJECT_ID \
--metadata='CONDA_PACKAGES=pandas matplotlib seaborn scikit-learn MY_CUSTOM_PACKAGE' \
--metadata='CONDA_CHANNELS=conda-forge https://MY_CUSTOM_CONDA_CHANNEL'
我已验证我可以在本地 conda install -c https://MY_CUSOMT_CONDA_CHANNEL MY_CUSTOM_PACKAGE
,并且正在安装其他软件包。在搜索集群的日志时,我没有找到有关安装其他 conda 软件包的条目。
问题:
- 在哪里可以找到有助于我调试此问题的日志?
- 是不是上面的命令有问题?
您似乎在创建集群时没有添加 conda-install.sh
init 操作,请参阅此 doc 中的更多详细信息,例如:
gcloud dataproc clusters create my-cluster \
--image-version=1.4 \
--region=${REGION} \
--metadata='CONDA_PACKAGES=pandas matplotlib seaborn scikit-learn MY_CUSTOM_PACKAGE' \
--metadata='CONDA_CHANNELS=conda-forge https://MY_CUSTOM_CONDA_CHANNEL' \
--initialization-actions=gs://goog-dataproc-initialization-actions-${REGION}/python/conda-install.sh
您应该能够在 /var/log/dataproc-initialization-script-0.log
找到初始化操作日志,在 doc 中查看更多详细信息。