无法向 ml-engine 重新提交作业,因为 "A job with this id already exists"
Cannot resubmit job to ml-engine because "A job with this id already exists"
我正在尝试向 gcloud ml-engine 提交作业。作为参考,作业使用 this sample provided by Google
第一次通过了,但是出现了与这个问题无关的错误,现在我正在尝试在更正错误后重新发出命令:
gcloud ml-engine jobs submit training $JOB_NAME \
--stream-logs \
--runtime-version 1.0 \
--job-dir $GCS_JOB_DIR \
--module-name trainer.task \
--package-path trainer/ \
--region us-east1 \
-- \
--train-files $TRAIN_GCS_FILE \
--eval-files $EVAL_GCS_FILE \
--train-steps $TRAIN_STEPS
,其中 $JOB_NAME
= census
。不幸的是,我似乎无法继续重新提交作业,除非我将 $JOB_NAME
更改为 census2
,然后 census3
,等等。对于每个新作业。
以下是我收到的错误:
ERROR: (gcloud.ml-engine.jobs.submit.training) Project [my-project-name]
is the subject of a conflict: Field: job.job_id Error: A job with this
id already exists.
这部分设计是否无法使用相同的作业名称重新提交,或者我遗漏了什么?
不确定这是否有帮助,但在 Google's sample code for flowers 中,通过将日期和时间附加到作业 ID 来避免错误,如第 22 行所示,例如,
declare -r JOB_ID="flowers_${USER}_$(date +%Y%m%d_%H%M%S)"
就像 Chunck 刚才说的,只需尝试将 JOB_NAME
设置为:
JOB_NAME="census_$(date +%Y%m%d_%H%M%S)"
我正在尝试向 gcloud ml-engine 提交作业。作为参考,作业使用 this sample provided by Google
第一次通过了,但是出现了与这个问题无关的错误,现在我正在尝试在更正错误后重新发出命令:
gcloud ml-engine jobs submit training $JOB_NAME \
--stream-logs \
--runtime-version 1.0 \
--job-dir $GCS_JOB_DIR \
--module-name trainer.task \
--package-path trainer/ \
--region us-east1 \
-- \
--train-files $TRAIN_GCS_FILE \
--eval-files $EVAL_GCS_FILE \
--train-steps $TRAIN_STEPS
,其中 $JOB_NAME
= census
。不幸的是,我似乎无法继续重新提交作业,除非我将 $JOB_NAME
更改为 census2
,然后 census3
,等等。对于每个新作业。
以下是我收到的错误:
ERROR: (gcloud.ml-engine.jobs.submit.training) Project [my-project-name]
is the subject of a conflict: Field: job.job_id Error: A job with this
id already exists.
这部分设计是否无法使用相同的作业名称重新提交,或者我遗漏了什么?
不确定这是否有帮助,但在 Google's sample code for flowers 中,通过将日期和时间附加到作业 ID 来避免错误,如第 22 行所示,例如,
declare -r JOB_ID="flowers_${USER}_$(date +%Y%m%d_%H%M%S)"
就像 Chunck 刚才说的,只需尝试将 JOB_NAME
设置为:
JOB_NAME="census_$(date +%Y%m%d_%H%M%S)"