【问题标题】:GKE GPU Instances lose internet access (only when there's a GPU)GKE GPU 实例失去互联网访问权限(仅当有 GPU 时)
【发布时间】:2022-01-05 14:36:37
【问题描述】:

我在 GCP 上的 GKE 环境中使用 GPU 实例。不幸的是,我在 GPU 实例上一直无法访问互联网。有时它起作用,有时它不起作用。我首先检测到这个问题是因为我从 huggingface 下载预训练模型的请求无法解决。

我一直在尝试更好地理解问题,而这种“网络丢失”只发生在 GPU 实例中。

我一直在使用以下 kubernetes 容器来开始解决问题:

      containers:
      - name: test-img
        image: test:0
        command: [ "/bin/bash", "-c", "--" ]
        args: [ "while true; do sleep 30; done;"]

(测试是一个简单的ubuntu图像左右) 之后我执行到 pod 并尝试使用 apt-get install 安装任何软件包,例如 apt-get install -y wget,我得到以下输出:

Err:1 http://deb.debian.org/debian bullseye/main amd64 libpsl5 amd64 0.21.0-1.2
  Temporary failure resolving 'deb.debian.org'
Err:2 http://deb.debian.org/debian bullseye/main amd64 wget amd64 1.21-1+b1
  Temporary failure resolving 'deb.debian.org'
Err:3 http://deb.debian.org/debian bullseye/main amd64 publicsuffix all 20210108.1309-1
  Temporary failure resolving 'deb.debian.org'
E: Failed to fetch http://deb.debian.org/debian/pool/main/libp/libpsl/libpsl5_0.21.0-1.2_amd64.deb  Temporary failure resolving 'deb.debian.org'
E: Failed to fetch http://deb.debian.org/debian/pool/main/w/wget/wget_1.21-1%2bb1_amd64.deb  Temporary failure resolving 'deb.debian.org'
E: Failed to fetch http://deb.debian.org/debian/pool/main/p/publicsuffix/publicsuffix_20210108.1309-1_all.deb  Temporary failure resolving 'deb.debian.org'

请注意,只要我在非 GPU 实例中重试此操作,它就会完美运行。相同的图像,相同的 yaml 文件等。

我觉得这与 DNS 发现有关,令人惊讶的是,这个错误在几周前第一次发生,然后自行消失了。现在又回来了,到目前为止没有对配置进行任何更改。

请注意,该 pod 是一种 Job。欢迎任何帮助,已经为此苦苦挣扎了一段时间

【问题讨论】:

  • 你能ping到8.8.8.8之类的东西吗?您可以通过 FQDN 访问任何内容吗?

标签: dns gpu google-kubernetes-engine


【解决方案1】:

我已经设法解决了这个问题,尽管这是一个非常棘手的解决方案。仅当我只有 GPU 实例时才会发生此错误。将一个 CPU 实例作为 e1 micro 添加到集群中解决了这个问题。

GPU 实例是否有可能位于特定的 VPN 上,并且只能“通过”集群的 cpu 实例网络与外部通信?

【讨论】:

    猜你喜欢
    • 2021-04-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-08-11
    • 1970-01-01
    • 1970-01-01
    • 2016-08-03
    相关资源
    最近更新 更多