最近测试环境的订单模块经常性的挂掉,查看其CPU使用率达到177%。
CPU占用高一般是由以下情况导致的:

1.代码中存在死循环,导致应用一直占用着cpu。
2.某一张表数据量极大,查出来进行处理极其耗时,这时一般还伴随着内存溢出异常。
3.内存中存在虚拟机无法回收的对象,当内存不足的时候,gc一直在运行,导致CPU使用率飙升。

要确认是由于哪一种情况导致,一般可以按照以下步骤确定。
一. 使用TOP命令,查出是哪一个进程CPU占用率高,如下图所示,13339就是订单模块的进程ID,CPU占用率177.9%。
linux top过高问题拍查
二. 使用top -H -p13339(13339是Java进程的PID)命令找出了具体的线程资源占用情况(下面这张图是正常的,当时忘记截图保留了,知道此命令即可)

linux top过高问题拍查
当时占用很高的线程ID是13341,13341,转成十六进制就是0x341d,0x341e。
linux top过高问题拍查

可以发现是gc线程占用几乎所有的CPU。
三. 执行jstack 13339 > jstack.txt,把堆栈信息导出来,用记事本打开,去匹配0x341d,0x341e

四. 定位到了是gc线程的问题,使用jstat -gcutil 13339 2000 50命令查看GC的回收情况
linux top过高问题拍查
E(Eden区)跟O(Old区)的内存已经被耗尽了,FGC(Full GC)的次数高达4447次,FGCT(Full GC Time)的时间高达3986秒,即平均每次FGC的时间为:3986/4447≈ 0.89秒。每隔一秒就进行一次GC操作,也就是说,Java进程都把时间花在GC上了,所以就没有时间来处理其他事情。

此时去查看订单模块的日志,发现内存溢出的情况:

20190827 17:31:41.473 [DiscoveryClient-HeartbeatExecutor-0] ERROR com.netflix.discovery.DiscoveryClient.renew():824 - DiscoveryClient-ORDER/order-200-186:order:8023 - was unable to send heartbeat!java.lang.OutOfMemoryError: Java heap space

五.到这里,基本可以确定,是由于内存中存在虚拟机无法回收的对象,当内存不足的时候,gc一直在运行,导致CPU使用率飙升。
但是是哪些对象不能回收呢,这就需要导出当时的内存快照dump文件,使用jmap -dump:file=du.dump 13339,把导出的du.dump用JProfiler打开(需要把dump后缀改成hprof才能用JProfiler打开),结果如下图:
linux top过高问题拍查

只从这张图仅仅可以看出前两个对象大小只占总大小的9%,其他什么也看不出来,所以需要有一份对比数据,这时我重启了订单模块,订单模块恢复正常,这时重新导出dump文件,这时的结果如下:
linux top过高问题拍查

通过对比发现,正常的dump文件前两个对象占用到了37%,异常的dump文件前两个对象只占用了9%,这说明异常的dump文件有其他大文件稀释了这个比例,通过仔细对比之后,发现异常的dump文件包含很多重复的对象

linux top过高问题拍查
查看这些相同对象里面的内容发现是存在ThreadLocal中的User对象

linux top过高问题拍查

定位到具体代码,发现每次请求controller的时候都会把OnlineUser,放入到ThreadLocal里面,由于线程池的存在,导致线程一直复用,ThreadLocalMap里面的对象一直无法回收,持续增长,最终导致内存泄露。
linux top过高问题拍查
至此就找到问题代码了。解决方案就是增加remove操作即可,如下图所示:

linux top过高问题拍查
修改完成之后的内存快照如下,已经看不到线程对象,说明修改生效了。
linux top过高问题拍查

相关文章:

  • 2021-09-25
  • 2021-07-04
  • 2022-12-23
  • 2021-11-17
  • 2021-07-24
  • 2021-05-05
猜你喜欢
  • 2022-12-23
  • 2021-11-17
  • 2022-02-09
  • 2022-12-23
  • 2021-06-28
相关资源
相似解决方案