【问题标题】:ubuntu 14.04.1 server idle load average 1.00ubuntu 14.04.1 服务器空闲负载平均 1.00
【发布时间】:2014-11-25 04:14:02
【问题描述】:

在这里挠头。希望有人能帮我解决问题。

我有一台戴尔 PowerEdge SC1435 服务器,它已经在以前版本的 ubuntu 上运行了一段时间。 (我相信是 13.10 服务器 x64)

我最近重新格式化了驱动器 (SSD) 并安装了 ubuntu 服务器 14.04.1 x64。

在安装过程中一切似乎都很好,但机器在内核输出结束时首次启动时挂起,就在我希望屏幕清除并出现登录提示之前。我看到的内核输出末尾没有明显的错误。 (有一条关于“不使用不可靠的 cpu 热传感器”的消息,但无论它是否启动,它似乎都存在)

我给了它 5 分钟的时间,然后强制重启。令我惊讶的是,它在 bios 发布后大约 1-2 秒内启动到登录提示。我再次重新启动,它似乎在之前挂起的地方暂停了几秒钟,但继续进入登录屏幕。再次重新启动它又快了。所以在这一点上,我认为这只是我永远不会解释的那些随机的一次性故障之一,所以我继续前进。

我安装了一些软件包(在其他硬件上的相同操作系统版本上安装完全相同的软件包),进行了 apt upgrade 和 dist-upgrade 然后重新启动。它似乎又挂了,所以我开车到数据中心并连接了一个控制台,结果却是一个空白屏幕。再次强制重启。 (还设置了 ipmi 以进行远程重启并摆脱了 grub 记录失败,因此它不会等我按 Enter 键!)

昨晚已经很晚了。我回到家,重新启动了几次,没有问题,所以就睡觉了。 今天我再次重新启动以检查它,它又在某个地方崩溃了。我远程强制重启了它。

此时我开始进一步挖掘,并立即注意到一些非常奇怪的东西。

top - 14:18:35 up 8 min,  1 user,  load average: 1.00, 0.85, 0.45
Tasks: 148 total,   1 running, 147 sleeping,   0 stopped,   0 zombie
%Cpu(s):  0.1 us,  0.3 sy,  0.0 ni, 99.6 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem:  33013620 total,   338928 used, 32674692 free,     9740 buffers
KiB Swap:  3906556 total,        0 used,  3906556 free.    47780 cached Mem

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
    1 root      20   0   33508   2772   1404 S   0.0  0.0   0:03.82 init
    2 root      20   0       0      0      0 S   0.0  0.0   0:00.00 kthreadd
    3 root      20   0       0      0      0 S   0.0  0.0   0:00.00 ksoftirqd/0
    5 root       0 -20       0      0      0 S   0.0  0.0   0:00.00 kworker/0:0H
    6 root      20   0       0      0      0 S   0.0  0.0   0:00.00 kworker/u16:0
    8 root      20   0       0      0      0 S   0.0  0.0   0:00.24 rcu_sched
    9 root      20   0       0      0      0 S   0.0  0.0   0:00.02 rcuos/0
   10 root      20   0       0      0      0 S   0.0  0.0   0:00.00 rcuos/1
   11 root      20   0       0      0      0 S   0.0  0.0   0:00.00 rcuos/2

此服务器完全未使用且处于空闲状态,但它的 1 分钟平均负载恰好为 1.00? 当我观察其他值时——5 分钟和 15 分钟似乎也朝着 1.00 前进,所以我假设它们都会在某个时候达到 1.00。 (“1 Running”是顶层进程)

我以前从未遇到过这种情况,因为我不知道是什么导致了启动崩溃,所以我现在假设这两者可能是相关的。

我想做的是确定(并希望消除)导致错误平均负载和崩溃问题的原因。

到目前为止,我无法确定哪个进程可能正在等待某种资源来生成该平均负载。

如果有人可以帮助我尝试追踪它,我将非常感激。

top 显示所有进程几乎总是处于休眠状态。有些偶尔会出现,但我认为这很正常。 CPU 使用率大多显示 100% IDLE,偶尔会下降到 99% 左右。

nmon 并没有向我展示太多。一切看起来都很闲。

iotop 显示几乎没有任何流量。 (同样,非常偶然的磁盘访问点)

中断频率似乎很低。据我所知,低于 100/秒。

我看到许多谷歌讨论表明这一点:

echo 100 > /sys/module/ipmi_si/parameters/kipmid_max_busy_us

..没有效果。

服务器内存为 ECC 且测试通过。

服务器安装是“最小”(F4 选项),在安装过程中勾选了 OpenSSH 服务器。 之后安装了一些软件包,包括 vim、bcache-tools、bridge-utils、qemu、software-properties-common、open-iscsi、qemu-kvm、cpu-checker、socat、ntp 和 nodejs。 (想想就这些)

我已尝试禁用和删除 bcache 内核模块。没有效果。 停止 iSCSI 服务.. 没有效果。 (虽然这台服务器上绝对没有配置任何东西)

我会在这段时间过长之前把它留在那里。如果有人可以帮助我尝试解决这个问题,将不胜感激。

干杯,

詹姆斯

【问题讨论】:

  • 这个问题似乎是题外话,因为它是关于 Ubuntu 管理的,应该在askubuntu 上提问。
  • 噢!我以为我在 serverfault 上发帖,不知何故到了这里!我会在那里重新发布。我很抱歉。

标签: linux ubuntu


【解决方案1】:

平均负载为 1.0 是 bcache 回写线程保持不间断睡眠的产物。它可能会在 3.19 或更新的内核中得到纠正。例如,请参阅this Debian bug report

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2016-04-19
    • 1970-01-01
    • 1970-01-01
    • 2013-08-26
    • 2017-06-12
    • 2019-01-05
    • 1970-01-01
    相关资源
    最近更新 更多