【问题标题】:Google cloud jobs submit training gets stuck谷歌云工作提交培训卡住了
【发布时间】:2018-08-11 05:56:09
【问题描述】:

您好,虽然我设置了谷歌云机器学习来训练神经网络,但我突然无法向谷歌云提交作业。

没有错误,但命令挂在那里没有做任何事情,我的实例也在运行。这是命令:

gcloud ml-engine jobs submit training job9123 --runtime-version 1.0 --job-dir gs://dataset1_giorgaros2 --package-path trainmodule  --module-name trainmodule.nncloud --region europe-west1 --config cloudml-gpu.yaml -- --train-file gs://dataset1_giorgaros2/nnn.p

谢谢!

【问题讨论】:

  • 您可以使用 gcloud 访问其他服务吗?

标签: machine-learning neural-network google-cloud-platform google-cloud-ml


【解决方案1】:

ML 引擎作业日志有助于获取有关失败作业执行的更多详细信息,在大多数情况下,日志文件包含失败的原因。

Finding the job logs on ML engine

如果您每次在训练作业执行过程中都尝试相同的命令,您可能会收到关于作业名称的错误,这是因为名称对于 ML 引擎上的每个作业必须是唯一的,正如在ML 引擎作业的命名约定规则。

ML Engine name convention

【讨论】:

    【解决方案2】:

    尝试检查与谷歌计算引擎的网络连接。

    检查运行日志 - https://console.cloud.google.com/

    当然,阅读文档: https://cloud.google.com/sdk/gcloud/reference/ml-engine/jobs/submit/training

    【讨论】:

      猜你喜欢
      • 2019-02-06
      • 2018-05-31
      • 1970-01-01
      • 2014-08-27
      • 1970-01-01
      • 1970-01-01
      • 2020-12-18
      • 2021-03-19
      • 2020-01-09
      相关资源
      最近更新 更多