【问题标题】:kubeflow - jupyter pod got stuck after spawning sometimekubeflow - jupyter pod 在某个时间生成后卡住了
【发布时间】:2019-08-17 16:54:44
【问题描述】:

我是 Kubernetes 世界的新手。我正在尝试在集群内部署 jupyter notebook。我参考官方文档创建了 Kubernetes 集群。笔记本说,一旦产卵完成,它将重定向到主页。但是 jupyter pod 在某个时间产卵后卡住了。

我在 GitHub 中提到了类似的问题,但找不到答案。参考链接是Github Link

来自问题的 cmets 建议 jupyter hub 是否使用永久磁盘。我运行了这些命令,似乎附加了永久磁盘。

kubectl -n 默认获取 po,svc,deploy,pv,pvc -o 宽

    NAME                                 READY   STATUS      RESTARTS   AGE   IP          NODE                                             NOMINATED NODE
pod/deploy-ml-pipeline-csnx4-j556r   0/1     Completed   0          30m   10.60.1.6   gke-churnprediction-default-pool-142b8f7d-d4kv   <none>

NAME                 TYPE        CLUSTER-IP    EXTERNAL-IP   PORT(S)   AGE   SELECTOR
service/kubernetes   ClusterIP   10.63.240.1   <none>        443/TCP   32m   <none>

NAME                                                        CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS   CLAIM                     STORAGECLASS   REASON   AGE
persistentvolume/pvc-57af1a5e-505d-11e9-9b66-42010a800130   10Gi       RWO            Delete           Bound    kubeflow/vizier-db        standard                27m
persistentvolume/pvc-70874d08-505d-11e9-9b66-42010a800130   10Gi       RWO            Delete           Bound    kubeflow/minio-pv-claim   standard                26m
persistentvolume/pvc-70b1712e-505d-11e9-9b66-42010a800130   10Gi       RWO            Delete           Bound    kubeflow/mysql-pv-claim   standard                26m
persistentvolume/pvc-86d45ad1-505d-11e9-9b66-42010a800130   10Gi       RWO            Delete           Bound    kubeflow/claim-madhi      standard                25m

这是上述命令的结果,据我所知,永久磁盘已成功附加!我真的不知道它在内部是如何工作的。所以,我无法弄清楚这里有什么问题。任何人都可以解释问题或提供kubernetes架构链接的链接吗?这对我理解 Kubernetes 背后的核心概念会有帮助。

下面是获取 pod 描述的命令

kubectl 描述 pod pod_name

获取yaml文件

kubectl 获取 pod pod_name -o yaml

【问题讨论】:

  • 你能显示kubectl describe pod deploy-ml-pipeline-csnx4-j556r输出吗
  • 是的 @A_Suh 我正在编辑这篇文章并附上 pod 描述。这么晚才回复很抱歉。我已经有一段时间没有使用该网站了
  • 它没有显示 pod 有任何问题。状态为 Running 您是否还可以使用以下命令输出更新您的帖子 kubectl get po deploy-ml-pipeline-csnx4-j556r -o yaml
  • @A_Suh 编辑了帖子!
  • 我猜一个集群没有启用自动缩放。此消息显示在 GCP 网页界面中。我猜为每个集群启用自动缩放将清除此错误!

标签: kubernetes jupyter-notebook kubeflow


【解决方案1】:

我有点想出解决方案,但我不知道这是确切的解决方案还是仍然存在问题。根据评论,pod 或其他配置文件没有问题。我有点认为这可能是本地主机问题。因此,我尝试将端口从 8085 更改为 8081,然后重新运行 start_ui.sh 脚本。生成错误消失了,它把我重定向到了 juypter 工作目录。

kubectl port-forward -n ${NAMESPACE} $(kubectl get pods -n ${NAMESPACE} --selector=service=ambassador -o jsonpath='{.items[0].metadata.name}') 8081:80

如果你想避免所有这些问题,那么有效的方法是在 endpoints 中运行 kubeflow 而不是 localhost 来消除所有这些问题。要在端点查看仪表板,您需要在创建集群时初始设置 IAM 访问权限。

【讨论】:

    猜你喜欢
    • 2022-01-22
    • 1970-01-01
    • 2023-02-10
    • 1970-01-01
    • 2014-01-09
    • 1970-01-01
    • 2020-09-28
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多