【发布时间】:2017-05-06 08:18:33
【问题描述】:
我想在 CloudML 上分析 TensorFlow 模型。当我使用 tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE) 时,我的进程以非零退出代码终止,而没有详细说明发生了什么。
我尝试添加和删除打开此选项的代码,并且此选项与进程死亡之间存在 100% 的相关性。
错误消息是“副本主机 0 以非零状态 250 退出。终止原因:错误。要了解有关您的工作退出原因的更多信息,请查看日志
如何诊断和解决此问题?
【问题讨论】:
-
我是 Cloud ML Engine 的一名工程师。很抱歉给您带来麻烦,您介意在发生这种情况的地方分享工作 ID 吗?如果您不想公开发布,可以通过 cloudml-feedback@google.com 将其通过电子邮件发送给我们。
-
@JeremyLewi 感谢您的快速回复。这是一个玩具示例,我只是在学习 tensorflow 并在 gpu 上尝试使用 cifar 数据集。 job id 是 cifar_20170430_215857 如果您需要其他信息,请告诉我。
-
@JeremyLewi 有更新吗? job_id 是否帮助您重现问题?如果需要,我可以将整个代码发送给您,以便重现它。
-
我们正在调查。我们认为这可能与 question 中的段错误相同,因此您可能想尝试该问题中的解决方法(即使用 TF 1.1.0)。
-
@JeremyLewi 升级到 TF 1.1.0 后异常消失,但我在 tensorboard 中没有看到来自 gpu 的任何分析信息。一切都变灰了。
标签: tensorflow google-cloud-ml google-cloud-ml-engine