无法在 jupyter notebook 中使用 gcloud ml-engine(或 ai-platform)命令将作业提交给 f1-micro

fail to submit job to f1-micro with gcloud ml-engine (or ai-platform) command in jupyter notebook

我正在尝试提交一个 google 云作业,该作业为 mnist 数字训练 cnn 模型。由于我是gcp的新手,所以我想先在f1-micro机器上训练这个工作来练习。但没有成功。我遇到了两个问题。

这是我的系统。 windows 10,anaconda,jupyter notebook 6,python 3.6,tf 1.13.0。 起初,我的模型在不涉及任何 gcp 命令的情况下运行良好。然后我按照 gcp 课程的建议将文件打包到一个模块中。并对本地火车使用 gcloud 命令。在我关闭并停止 ipynb 文件之前,单元格似乎卡住了并​​且什么都不做。训练紧随其后开始,结果是正确的,因为我在 Tensorboard 上对其进行了监控。我需要做什么才能在不关闭该笔记本的情况下从单元格正常 运行?顺便说一句,我可以在没有这个问题的终端中做到 运行。

第二个问题,然后我尝试向 google 云机器提交。我用 f1-micro 创建了一个 vm 实例只是为了练习,因为它有很多空闲时间。但不接受我的命令选项。我为机器类型尝试了几种格式。我无法正确设置机器类型。以及如何建立与我创建的实例的连接?

有什么建议吗?谢谢!代码在这里。

#1.local submission lines


OUTDIR='trained_test'

INPDIR='..\data'
shutil.rmtree(path = OUTDIR, ignore_errors = True) 

!gcloud ai-platform local train \
    --module-name=trainer.task \
    --package-path=trainer \
    -- \
    --output_dir=$OUTDIR \
    --input_dir=$INPDIR \
    --epochs=2 \
    --learning_rate=0.001 \
    --batch_size=100


#2. submit to compute engine

OUTDIR='gs://'+BUCKET+'/digit/train_01'
INPDIR='gs://'+BUCKET+'/digit/data'
JOBNAME='kaggle_digit_01_'+datetime.now().strftime("%Y%m%d_%H%M%S")

!gcloud ai-platform jobs submit training $JOBNAME \
    --region=$REGION \
    --module-name=trainer.task \
    --package-path=trainer \
    --job-dir=$OUTDIR \
    --staging-bucket=gs://$BUCKET \
    --scale-tier=custom \
    --master-machine-type=zones/us-central1-a/machineTypes/f1-micro \
    --runtime-version 1.13 \
    -- \
    --output_dir=OUTDIR \
    --input_dir=INPDIR \
    --epochs=5 --learning_rate=0.001 --batch_size=100 \

错误信息:

ERROR: (gcloud.ai-platform.jobs.submit.training) INVALID_ARGUMENT: Field: master_type Error: The specified machine type is not supported: zones/us-central1-a/machineTypes/f1-micro
- '@type': type.googleapis.com/google.rpc.BadRequest
  fieldViolations:
  - description: 'The specified machine type is not supported: zones/us-central1-a/machineTypes/f1-micro'
    field: master_type

更新:

更改机器类型确实有效

--scale-tier=CUSTOM \
--master-machine-type=n1-standard-4 \

我也把下面的放在开头,这样笔记本就可以识别$jobname这样的文件格式了...

import gcsfs

顺便说一句 --job-dir 似乎并不重要。

但是本地火车仍然有同样的问题,我需要关闭并停止笔记本电脑才能开始训练。 有人可以对此提出建议吗?

AI Platform Training 不支持 f1-micro。 Here 是支持的机器列表。您也不需要指定区域。只是机器类型。即,--master-machine-type=n1-standard-4