【问题标题】:Process dies if profiling is turned on如果打开分析,进程会终止
【发布时间】:2017-05-06 08:18:33
【问题描述】:

我想在 CloudML 上分析 TensorFlow 模型。当我使用 tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE) 时,我的进程以非零退出代码终止,而没有详细说明发生了什么。

我尝试添加和删除打开此选项的代码,并且此选项与进程死亡之间​​存在 100% 的相关性。

错误消息是“副本主机 0 以非零状态 250 退出。终止原因:错误。要了解有关您的工作退出原因的更多信息,请查看日志

如何诊断和解决此问题?

【问题讨论】:

  • 我是 Cloud ML Engine 的一名工程师。很抱歉给您带来麻烦,您介意在发生这种情况的地方分享工作 ID 吗?如果您不想公开发布,可以通过 cloudml-feedback@google.com 将其通过电子邮件发送给我们。
  • @JeremyLewi 感谢您的快速回复。这是一个玩具示例,我只是在学习 tensorflow 并在 gpu 上尝试使用 cifar 数据集。 job id 是 cifar_20170430_215857 如果您需要其他信息,请告诉我。
  • @JeremyLewi 有更新吗? job_id 是否帮助您重现问题?如果需要,我可以将整个代码发送给您,以便重现它。
  • 我们正在调查。我们认为这可能与 question 中的段错误相同,因此您可能想尝试该问题中的解决方法(即使用 TF 1.1.0)。
  • @JeremyLewi 升级到 TF 1.1.0 后异常消失,但我在 tensorboard 中没有看到来自 gpu 的任何分析信息。一切都变灰了。

标签: tensorflow google-cloud-ml google-cloud-ml-engine


【解决方案1】:

已通过使用 tensorflow 1.1.0 而不是 1.0.0 修复。但是,没有显示分析信息。

【讨论】:

    【解决方案2】:

    对于您的问题,基本上退出状态意味着您的代码在运行期间获得了 SIGABRT。

    更新: 加载 libcupti 时存在问题。 Cloud ML Engine 发现了一个与之相关的错误。修复正在进行中。该问题将在以后的版本中得到解决。

    【讨论】:

      猜你喜欢
      • 2016-04-12
      • 1970-01-01
      • 2019-08-03
      • 1970-01-01
      • 1970-01-01
      • 2016-04-16
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多