先说事情的始末吧,今天下午群里滴滴的一阵响,我拿过手机,定眼一看,不好了,有事情要发生了。居然还@我了 看来火烧到身上来了,我赶紧一顿电话,终于找到人了,但是去公司需要一定时间,技术到了公司,又是一顿神操作。终于找到接口返回参数都是118分。然后就在接口群里面和对方聊了一阵,让对方支持,一通操作下来。发现时间过去几个小时了,不行,当即决定回滚,立马恢复到上一个版本。又过了一个小时。终于回滚完成。但是问题的根源还没有找到。和对方一通调试。终于定位出来问题,原来是少了&符号的问题。这么低级的错误居然都没有人发现,可见现有的流程是存问题的。我细细思考几分钟才有了今天这篇文章。
如何减少程序的出错概率呢?
开发必须编写单元测试用例,必须自己测试过。保证接口正常返回,程序无异常,正例和反例必须覆盖到
测试人员必须各种场景考虑清楚 覆盖到位。
上线钱必须要有测试验证通过的报告
上线前必须让业务验收以下,确认程序无流程性的大问题。
上线后,接口首先需要自测一遍
上线后,需要立即找到业务方验证生产数据。
如何第一时间定位和解决问题?
1.建立值班机制。
2.相关的人员需要调休需要有候补人员继续坚守岗位
3.需要申请访问生产环境的**
4.需要熟悉程序部署和代码情况。
5.日志需要记录完善,该打印的地方必须打印参数出来。
如何给业务部门和领导汇报?
需要编写一个线上事故报告说明,主要内容可分为以下几块,
事故现象/发生过程
事故影响范围
事故产生的原因分析
事故的紧急处理方案
事故的永久的修复方案
事故的相关责任人需要明确(非必要,需要追究在写)
总结:不管发生什么情况,首先自己不能慌,需要搞清楚问题所在,首要的不是去推卸责任而是去解决问题,不是去抱怨而是真心去挽回损失。危机时刻需要要有当机立断的决心和勇气。出了事情不要总想着逃避和推卸,而是应该勇于承担和快速的定位解决问题。
PS:话说,不知道这次事故会不会罚款和通报批评?心里怕怕的。