背景
  这里的问题主要是指那些一直运行正常,因为未知原因或突然的流量增大,导致系统异常。
 
步骤
  1. 快速恢复(快速恢复系统正常运行,避免产生更大的损失)
    1. 重启应用服务器
    2. 重启中间件
    3. 下线问题机器
    4. 下线问题中间件
    5. 熔断、下线第三方服务
  2. 保留现场
    1. 保留其中一台故障节点不重启,移除这台机器的流量(目的是保留内存数据和环境数据)
    2. 监控系统:记录出现问题时段的机器参数、网络/磁盘IO状态、CPU/内存使用率、JVM数据、慢查询数据、日志数据、告警数据等
  3. 解决复盘
    1. 分析监控系统发现问题
    2. 分析日志发现问题
    3. 分析现场保留的节点信息:如线程池数据、内存、CPU数据、JVM数据等(及时导出数据,存档)

相关文章:

  • 2021-05-02
  • 2021-09-04
  • 2021-10-11
  • 2021-12-05
  • 2022-12-23
  • 2022-12-23
  • 2021-11-05
  • 2021-12-26
猜你喜欢
  • 2021-08-23
  • 2021-05-31
  • 2021-10-30
  • 2021-10-30
  • 2021-07-25
  • 2021-09-15
  • 2022-12-23
相关资源
相似解决方案