【问题标题】:No logs, no output from Google Cloud ML Training Job没有日志,没有来自 Google Cloud ML 训练作业的输出
【发布时间】:2017-11-09 11:05:48
【问题描述】:

我正在尝试在 Google 的 Cloud ML 上运行培训作业。我工作的迹象是:

  • 诸如此类的消息表明软件包已构建和安装:

INFO 2017-06-07 15:14:01 -0700 master-replica-0 构建成功 培训工作-foo

信息 2017-06-07 15:14:01 -0700 master-replica-0 安装收集的包:training-job-foo

信息 2017-06-07 15:14:01 -0700 master-replica-0 安装成功 training-job-foo-0.1.dev0

信息 2017-06-07 15:14:01 -0700 master-replica-0 运行命令:pip install --user training-job-foo-0.1.dev0.tar.gz

信息 2017-06-07 15:14:02 -0700 master-replica-0 处理./training-job-foo-0.1.dev0.tar.gz

  • 这样的消息表明我的工作开始了:

INFO 2017-06-07 15:14:03 -0700 master-replica-0 运行命令: python -m training-job-foo.training_routine_bar --job-dir gs://regional-bucket-similar-to-training-job/output/

  • 这样的消息表明我的标量摘要正在处理中:

INFO 2017-06-07 15:14:21 -0700 master-replica-0 摘要名称 总计 准确性是非法的;改为使用 Total_Accuracy。

  • 最后,我还看到 CPU、内存使用量增加,消耗的 MLUnits 增加

  • 我应该补充一点,我还看到摘要 Filewriters 在创建作业之前创建摘要文件,但我没有看到这些文件的大小增加。我还看到一个初始检查点文件写入 gs://regional-bucket-similar-to-training-job/output/

除此之外,我看不到其他日志或输出。我应该看到日志,因为我打印准确性,经常丢失。我还编写摘要和检查点文件。

我错过了什么?

在这种情况下还有哪些其他调试工具可用?我目前所做的只是流式传输日志,在 Cloud ML 控制台上查看作业状态、CPU 使用情况、内存使用情况,并查看我的 Cloud Storage 存储桶是否有任何变化

【问题讨论】:

    标签: machine-learning tensorflow google-cloud-ml google-cloud-ml-engine


    【解决方案1】:

    很抱歉您遇到问题。目前,可用的调试工具是作业日志、指标和 TensorBoard,但似乎所有这些都不能用于您的情况。 如果可能,请将您的项目编号和工作 ID 发送至 cloudml-feedback@google.com,以便我们仔细查看?

    【讨论】:

    • 谢谢 - 刚刚这样做并在电子邮件中引用了这篇文章
    猜你喜欢
    • 1970-01-01
    • 2017-03-09
    • 2021-09-15
    • 1970-01-01
    • 2018-04-22
    • 2017-07-25
    • 1970-01-01
    • 1970-01-01
    • 2020-11-20
    相关资源
    最近更新 更多