CloudML 作业 + 冗长 == 错误
CloudML job + verbosity == Error
在第 9. 4. Feature Engineering
步运行 dataeng-machine-learning
Codelab。
运行创建 tarin 作业的笔记本步骤是:
%%bash
OUTDIR=gs://${BUCKET}/taxifare/ch4/taxi_trained
JOBNAME=lab4a_$(date -u +%y%m%d_%H%M%S)
echo $OUTDIR $REGION $JOBNAME
gsutil -m rm -rf $OUTDIR
gcloud ml-engine jobs submit training $JOBNAME \
--region=$REGION \
--module-name=trainer.task \
--package-path=${REPO}/courses/machine_learning/feateng/taxifare/trainer \
--job-dir=$OUTDIR \
--staging-bucket=gs://$BUCKET \
--scale-tier=BASIC \
--runtime-version=1.0 \
-- \
--train_data_paths="gs://$BUCKET/taxifare/ch4/taxi_preproc/train*" \
--eval_data_paths="gs://${BUCKET}/taxifare/ch4/taxi_preproc/valid*" \
--output_dir=$OUTDIR \
--num_epochs=100
无论我运行多少次,它都很好用。
但是如果我运行:
%%bash
OUTDIR=gs://${BUCKET}/taxifare/ch4/taxi_trained
JOBNAME=lab4a_$(date -u +%y%m%d_%H%M%S)
echo $OUTDIR $REGION $JOBNAME
gsutil -m rm -rf $OUTDIR
gcloud ml-engine jobs submit training $JOBNAME \
--region=$REGION \
--module-name=trainer.task \
--package-path=${REPO}/courses/machine_learning/feateng/taxifare/trainer \
--job-dir=$OUTDIR \
--staging-bucket=gs://$BUCKET \
--scale-tier=BASIC \
--runtime-version=1.0 \
-- \
--train_data_paths="gs://$BUCKET/taxifare/ch4/taxi_preproc/train*" \
--eval_data_paths="gs://${BUCKET}/taxifare/ch4/taxi_preproc/valid*" \
--output_dir=$OUTDIR \
--num_epochs=100 \
--verbosity DEBUG
作业在大约 40 秒后失败。在日志中有这个:
The replica master 0 exited with a non-zero status of 2. Termination reason: Error.
我在这里找到了这个用法:
https://cloud.google.com/ml-engine/docs/how-tos/getting-started-training-prediction#cloud-train-single
所以我觉得可以用。
我做错了什么?
请注意,“--\”行之后的每个参数都是对 tensorflow 代码的传递,因此取决于各个示例代码。
在这种情况下,您所在的样本不支持“--verbosity”标志 运行。查看 samples repo, it looks like the only sample that has that flag is the census estimator sample.
taxifare 示例目前硬编码为 INFO,代码不解析 --verbose 标志。
在第 9. 4. Feature Engineering
步运行 dataeng-machine-learning
Codelab。
运行创建 tarin 作业的笔记本步骤是:
%%bash
OUTDIR=gs://${BUCKET}/taxifare/ch4/taxi_trained
JOBNAME=lab4a_$(date -u +%y%m%d_%H%M%S)
echo $OUTDIR $REGION $JOBNAME
gsutil -m rm -rf $OUTDIR
gcloud ml-engine jobs submit training $JOBNAME \
--region=$REGION \
--module-name=trainer.task \
--package-path=${REPO}/courses/machine_learning/feateng/taxifare/trainer \
--job-dir=$OUTDIR \
--staging-bucket=gs://$BUCKET \
--scale-tier=BASIC \
--runtime-version=1.0 \
-- \
--train_data_paths="gs://$BUCKET/taxifare/ch4/taxi_preproc/train*" \
--eval_data_paths="gs://${BUCKET}/taxifare/ch4/taxi_preproc/valid*" \
--output_dir=$OUTDIR \
--num_epochs=100
无论我运行多少次,它都很好用。
但是如果我运行:
%%bash
OUTDIR=gs://${BUCKET}/taxifare/ch4/taxi_trained
JOBNAME=lab4a_$(date -u +%y%m%d_%H%M%S)
echo $OUTDIR $REGION $JOBNAME
gsutil -m rm -rf $OUTDIR
gcloud ml-engine jobs submit training $JOBNAME \
--region=$REGION \
--module-name=trainer.task \
--package-path=${REPO}/courses/machine_learning/feateng/taxifare/trainer \
--job-dir=$OUTDIR \
--staging-bucket=gs://$BUCKET \
--scale-tier=BASIC \
--runtime-version=1.0 \
-- \
--train_data_paths="gs://$BUCKET/taxifare/ch4/taxi_preproc/train*" \
--eval_data_paths="gs://${BUCKET}/taxifare/ch4/taxi_preproc/valid*" \
--output_dir=$OUTDIR \
--num_epochs=100 \
--verbosity DEBUG
作业在大约 40 秒后失败。在日志中有这个:
The replica master 0 exited with a non-zero status of 2. Termination reason: Error.
我在这里找到了这个用法: https://cloud.google.com/ml-engine/docs/how-tos/getting-started-training-prediction#cloud-train-single
所以我觉得可以用。
我做错了什么?
请注意,“--\”行之后的每个参数都是对 tensorflow 代码的传递,因此取决于各个示例代码。
在这种情况下,您所在的样本不支持“--verbosity”标志 运行。查看 samples repo, it looks like the only sample that has that flag is the census estimator sample.
taxifare 示例目前硬编码为 INFO,代码不解析 --verbose 标志。