【发布时间】:2022-01-05 14:36:37
【问题描述】:
我在 GCP 上的 GKE 环境中使用 GPU 实例。不幸的是,我在 GPU 实例上一直无法访问互联网。有时它起作用,有时它不起作用。我首先检测到这个问题是因为我从 huggingface 下载预训练模型的请求无法解决。
我一直在尝试更好地理解问题,而这种“网络丢失”只发生在 GPU 实例中。
我一直在使用以下 kubernetes 容器来开始解决问题:
containers:
- name: test-img
image: test:0
command: [ "/bin/bash", "-c", "--" ]
args: [ "while true; do sleep 30; done;"]
(测试是一个简单的ubuntu图像左右) 之后我执行到 pod 并尝试使用 apt-get install 安装任何软件包,例如 apt-get install -y wget,我得到以下输出:
Err:1 http://deb.debian.org/debian bullseye/main amd64 libpsl5 amd64 0.21.0-1.2
Temporary failure resolving 'deb.debian.org'
Err:2 http://deb.debian.org/debian bullseye/main amd64 wget amd64 1.21-1+b1
Temporary failure resolving 'deb.debian.org'
Err:3 http://deb.debian.org/debian bullseye/main amd64 publicsuffix all 20210108.1309-1
Temporary failure resolving 'deb.debian.org'
E: Failed to fetch http://deb.debian.org/debian/pool/main/libp/libpsl/libpsl5_0.21.0-1.2_amd64.deb Temporary failure resolving 'deb.debian.org'
E: Failed to fetch http://deb.debian.org/debian/pool/main/w/wget/wget_1.21-1%2bb1_amd64.deb Temporary failure resolving 'deb.debian.org'
E: Failed to fetch http://deb.debian.org/debian/pool/main/p/publicsuffix/publicsuffix_20210108.1309-1_all.deb Temporary failure resolving 'deb.debian.org'
请注意,只要我在非 GPU 实例中重试此操作,它就会完美运行。相同的图像,相同的 yaml 文件等。
我觉得这与 DNS 发现有关,令人惊讶的是,这个错误在几周前第一次发生,然后自行消失了。现在又回来了,到目前为止没有对配置进行任何更改。
请注意,该 pod 是一种 Job。欢迎任何帮助,已经为此苦苦挣扎了一段时间
【问题讨论】:
-
你能ping到
8.8.8.8之类的东西吗?您可以通过 FQDN 访问任何内容吗?
标签: dns gpu google-kubernetes-engine