【问题标题】:CloudML job + verbosity == ErrorCloudML 作业 + 详细程度 == 错误
【发布时间】:2017-06-16 22:06:06
【问题描述】:

在步骤 9. 4. Feature Engineering 上运行 dataeng-machine-learning 代码实验室。

运行 tarin 作业的笔记本步骤是: %%bash OUTDIR=gs://${BUCKET}/taxifare/ch4/taxi_trained JOBNAME=lab4a_$(date -u +%y%m%d_%H%M%S) echo $OUTDIR $REGION $JOBNAME gsutil -m rm -rf $OUTDIR gcloud ml-engine jobs submit training $JOBNAME \ --region=$REGION \ --module-name=trainer.task \ --package-path=${REPO}/courses/machine_learning/feateng/taxifare/trainer \ --job-dir=$OUTDIR \ --staging-bucket=gs://$BUCKET \ --scale-tier=BASIC \ --runtime-version=1.0 \ -- \ --train_data_paths="gs://$BUCKET/taxifare/ch4/taxi_preproc/train*" \ --eval_data_paths="gs://${BUCKET}/taxifare/ch4/taxi_preproc/valid*" \ --output_dir=$OUTDIR \ --num_epochs=100

无论我运行多少次,效果都很好。

但是,如果我运行: %%bash OUTDIR=gs://${BUCKET}/taxifare/ch4/taxi_trained JOBNAME=lab4a_$(date -u +%y%m%d_%H%M%S) echo $OUTDIR $REGION $JOBNAME gsutil -m rm -rf $OUTDIR gcloud ml-engine jobs submit training $JOBNAME \ --region=$REGION \ --module-name=trainer.task \ --package-path=${REPO}/courses/machine_learning/feateng/taxifare/trainer \ --job-dir=$OUTDIR \ --staging-bucket=gs://$BUCKET \ --scale-tier=BASIC \ --runtime-version=1.0 \ -- \ --train_data_paths="gs://$BUCKET/taxifare/ch4/taxi_preproc/train*" \ --eval_data_paths="gs://${BUCKET}/taxifare/ch4/taxi_preproc/valid*" \ --output_dir=$OUTDIR \ --num_epochs=100 \ --verbosity DEBUG

作业在大约 40 秒后失败。在日志中有这个: The replica master 0 exited with a non-zero status of 2. Termination reason: Error.

我在这里找到了这种用法: https://cloud.google.com/ml-engine/docs/how-tos/getting-started-training-prediction#cloud-train-single

所以我想它可以使用。

我做错了什么?

【问题讨论】:

  • 唯一的区别是详细程度标志吗?还是我遗漏了其他一些有意义的差异(或者可能是复制粘贴错误)?
  • 除非我弄错这是唯一的区别。

标签: google-cloud-ml google-cloud-ml-engine


【解决方案1】:

请注意,“--\”行之后的每个参数都是对 tensorflow 代码的传递,因此取决于各个示例代码。

在这种情况下,您正在运行的示例不支持“--verbosity”标志。查看samples repo,看起来唯一具有该标志的样本是census estimator sample

【讨论】:

  • 很棒 - 10 倍。代码实验室告诉您,您获得了某个 MSE,而不是如何验证该声明。将 MSE 输出到日志中会很好。
【解决方案2】:

出租车费示例当前被硬编码为 INFO,并且代码不解析 --verbose 标志。

【讨论】:

  • 错过了...教我回答手机上的堆栈溢出问题
猜你喜欢
  • 1970-01-01
  • 2014-11-19
  • 1970-01-01
  • 2015-03-24
  • 2017-07-29
  • 1970-01-01
  • 2013-10-16
  • 1970-01-01
  • 2012-03-08
相关资源
最近更新 更多