小编公司上线权限在测试手里,所以每次上线时,测试同学都需要进行线上观察,为此小编梳理了有关上线后我们需要观察些什么,以确保项目上线是成功的
上线观察模块
机器维度
CPU
使用top命令查看机器对应的CPU Usage
1、不超过60%(机器cpu used)。同比环比值范围。参考运维平台。
2、无不符合预期的明显增长
MEM
使用free -m命令查看buffer/cache的used和Mem的total
1、前者比后者不超过20%。
2、无不符合预期的明显增长
磁盘IO
使用dstat命令查看机器对应的磁盘IO使用情况(dsk total)
1、read和write不超过100M(byte)。
2、无不符合预期的明显增长
网络IO
使用dstat命令查看机器对应的网络IO使用情况(net total)
1、读写不超过70M(byte)。
2、无不符合预期的明显增长
JVM
使用jstat -gcutil pid 1000观察gc频率和gc耗时。注意fgc时间不超过200ms。相比之前,耗时同比基本一致。
对比上线前后gc频率和gc耗时
整体
如果公司运维有整体的可视化平台,可以通过平台进行上线机器和非上线机器的指标对比观察
服务维度
日志表现
数据日志
是否正常打印,且需要的数据字段记录正常
异常日志
异常数量*通过 tail -10000 yewu.log|grep Exception | wc -l*
异常分类*通过 grep Exception yewu.log|sort|uniq*
服务性能指标表现
耗时情况
流量请求
响应情况
业务维度
对应功能是否正常可用
其他维度
涉及收入的业务
观察收入情况
涉及消息消费的业务
观察消息消费情况
涉及订单类的业务
观察订单下单数据情况
涉及实验ab测的业务
观察ab测数据