为什么我的 DataDog 实例报告 Kubernetes “no_pod”？答案

【问题标题】：Why is my DataDog instance reporting a Kubernetes "no_pod"?为什么我的 DataDog 实例报告 Kubernetes “no_pod”？
【发布时间】：2017-04-06 03:00:03
【问题描述】：

我们正在 AWS 中运行 Kubernetes 集群，并且正在使用 dd-agent DaemonSet 在 DataDog 中收集指标。

我们的指标中显示了一个标记为“no_pod”的 Pod，它使用了大量资源，Memory/CPU/NetworkTx/NetworkRX。

对于这个 pod 是什么，我如何找到它、杀死它、重新启动它等有什么解释吗？

我找到了 dd-agent source code，它似乎定义了“no_pod”标签，但我无法理解它为什么存在、它来自哪里以及如何通过 kubectl 等找到它.

【问题讨论】：

通常“no_pod”指的是在 kubernetes 之外启动的容器，但这似乎是大量的“no_pod”容器。你有没有机会把你的日志和配置发给我们，以便我们帮助挖掘？ help.datadoghq.com/hc/en-us/articles/…
嗨@IlanRabinovitch。感谢您的回复。我会发出信号弹过去。

标签： kubernetes kubernetes-health-check datadog

【解决方案1】：

在与 DataDog 的支持团队交谈后，我设法找到了以下与 no_pod pod 是什么有关的信息。

我们的 Kubernetes 检查是从 Kubernetes API 获取容器列表，该 API 会公开聚合数据。在此处的 metric explorer 配置中，您可以看到几个名为 /docker 和 / 的容器与其他容器一起被拾取。来自 container_name:/ 和 container_name:/docker 的 pod_name:no_pod 指标只是跨多个容器聚合的指标。（因此，这些是您的图表中的最高值是有道理的。）如果您不希望您的图表显示这些聚合的容器指标，您可以克隆仪表板，然后从查询中排除这些 pod。为此，在克隆的仪表板上，只需在 JSON 选项卡中编辑查询，然后在标签范围内添加 !pod_name:no_pod。

因此，这些 pod 似乎是在集群外部运行的 docker 和根级别容器，并且将始终显示，除非您想像我现在那样专门过滤掉它们。

非常感谢 DataDog 的支持人员为我调查了这个问题，并给了我关于 pod 是什么的一个很好的解释，并基本上确认我可以安全地过滤掉它们而不必担心它们。

【讨论】：