导入未在 gcp 上定义的火炬

import torch not defined on gcp

正在尝试 运行 在 GCP 上“导入火炬”。

我收到消息ModuleNotFoundError: No module named 'torch'

尝试创建具有以下属性的新集群(通过 api,而非终端):

dataproc->conda.packages->pytorch==1.7.1,visions==0.7.1

dataproc->pip.packages->tokenizers==0.10.1,datasets==1.5.0

创建集群超时,没有创建。 即使只是尝试

也会发生同样的情况

dataproc -> conda.packages -> pytorch==1.7.1

尝试使用以下命令手动在 master 上安装 conda :

conda install -c pytorch pytorch

差不多一个小时后,我得到了:

Collecting package metadata (current_repodata.json): done
Solving environment: failed with initial frozen solve. Retrying with flexible solve.
Solving environment: failed with repodata from current_repodata.json, will retry with next repodata source.
Collecting package metadata (repodata.json): done
Solving environment -/

感谢您的帮助或建议 即,除了火炬我还需要: 从变形金刚进口 LongformerModel,LongformerTokenizer 从模型导入 RedditModel

您只需要使用 newer/latest PyTorch version available in conda-forge channel(现在是 1.8.0):

gcloud dataproc clusters create ${CLUSTER_NAME} \
  --image-version=2.0 \
  --region=${REGION} \
  --properties='^#^dataproc:conda.packages=pytorch==1.8.0,torchvision==0.9.0'

不使用 conda 安装,而是尝试使用 conda forge。那应该有效。 https://anaconda.org/conda-forge/pytorch