【问题标题】:Gcloud Internal Error while submitting training inside Docker container在 Docker 容器中提交训练时出现 Gcloud 内部错误
【发布时间】:2018-01-29 22:27:16
【问题描述】:

我正在构建一个 Docker 容器以使用 gcloud 提交 ML 训练作业 - 可运行对象实际上是一个 Python 程序,并且 gcloud 正在通过 subprocess.check_output 执行。在 Docker 容器外运行程序可以正常工作,这让我想知道是否存在一些未安装的依赖项,但 gcloud 根本没有输出任何有用的日志。

在运行 gcloud ml-engine 作业提交训练时,可执行文件返回 exit status 1 只是输出 Internal Error。 Google Cloud Console 上可用的日志始终是 5 个“正在验证工作要求...”条目,没有更多信息。

Docker 容器安装了以下依赖项(有些与 Google Cloud ML 无关,但被程序中的其他功能使用):

通过 apt-get: python、python-pip、python-dev、libmysqlclient-dev、curl

通过 pip 安装:flask、MySQL-python、configparser、pandas、tensorflow

gcloud工具本身是通过下载SDK并通过命令行安装来安装的:

RUN curl https://dl.google.com/dl/cloudsdk/release/google-cloud-sdk.tar.gz > /tmp/google-cloud-sdk.tar.gz
RUN mkdir -p /usr/local/gcloud
RUN tar -C /usr/local/gcloud -xvf /tmp/google-cloud-sdk.tar.gz
RUN /usr/local/gcloud/google-cloud-sdk/install.sh
ENV PATH $PATH:/usr/local/gcloud/google-cloud-sdk/bin

帐户凭据通过

设置
RUN gcloud auth activate-service-account --key-file path-to-keyfile-in-docker-container
RUN gsutil version -l

最后一个 gsutil 版本 命令几乎只是为了确保 SDK 安装工作正常。

有没有人知道可能会发生什么或如何进一步调试可能导致 gcloud 上的内部错误的原因?

提前致谢! :)

【问题讨论】:

    标签: python docker tensorflow google-prediction


    【解决方案1】:

    请确保所有parameters 设置正确,并确保您拥有all your dependencies uploaded and packaged properly

    如果一切都已完成,但您仍然无法运行作业,您需要的不仅仅是“内部错误”来查明问题。请联系 Google Cloud Platform 支持或在Public Issue Tracker 上提交错误以获得进一步的帮助。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2019-11-21
      • 2019-09-26
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多