在linux 3.10环境一次故障处理中,发现有类似如下打印:

NFO: rcu_sched_state detected stalls on CPUs/tasks: {15 } (detected by 4, 6002 jiffies,其余信息省略) 

该环境没有开启rcu的callback线程,也就是rcu是在软中断中处理。

获取信息发现,有一个核的rcu的qlen已经达到了几百万,而且维持不变,也就是,既没有新的rcu挂在这个核,也没见这个核处理rcu。

查看对应的percpu的softirq统计,发现没有rcu的软中断触发。

由于线上环境不能久等,担心因为rcu的释放积压导致出现oom,所以干脆使用如下方式来解决:

1.要么写一个模块触发一下软中断,因为当时看这个核是idle的,也没有关中断,这种方式应该可行。

2.简单方法,利用cpu的热插拔特性,将这个核下线,然后再上线,果然rcu的qlen减少到0了。

 

相关文章:

  • 2022-12-23
  • 2022-12-23
  • 2021-10-14
  • 2021-05-31
  • 2021-05-18
  • 2021-11-10
  • 2021-07-29
  • 2022-03-07
猜你喜欢
  • 2022-12-23
  • 2021-08-21
  • 2021-10-02
  • 2021-09-27
  • 2021-11-01
  • 2021-07-11
  • 2021-05-24
相关资源
相似解决方案