入职第一个坑,记录一下

先说事情的始末吧,今天下午群里滴滴的一阵响,我拿过手机,定眼一看,不好了,有事情要发生了。居然还@我了 看来火烧到身上来了,我赶紧一顿电话,终于找到人了,但是去公司需要一定时间,技术到了公司,又是一顿神操作。终于找到接口返回参数都是118分。然后就在接口群里面和对方聊了一阵,让对方支持,一通操作下来。发现时间过去几个小时了,不行,当即决定回滚,立马恢复到上一个版本。又过了一个小时。终于回滚完成。但是问题的根源还没有找到。和对方一通调试。终于定位出来问题,原来是少了&符号的问题。这么低级的错误居然都没有人发现,可见现有的流程是存问题的。我细细思考几分钟才有了今天这篇文章。

如何减少程序的出错概率呢?

  1. 开发必须编写单元测试用例,必须自己测试过。保证接口正常返回,程序无异常,正例和反例必须覆盖到

  2. 测试人员必须各种场景考虑清楚 覆盖到位。

  3. 上线钱必须要有测试验证通过的报告

  4. 上线前必须让业务验收以下,确认程序无流程性的大问题。

  5. 上线后,接口首先需要自测一遍

  6. 上线后,需要立即找到业务方验证生产数据。

如何第一时间定位和解决问题?

    1.建立值班机制。

    2.相关的人员需要调休需要有候补人员继续坚守岗位

    3.需要申请访问生产环境的**

    4.需要熟悉程序部署和代码情况。

    5.日志需要记录完善,该打印的地方必须打印参数出来。

如何给业务部门和领导汇报?

    需要编写一个线上事故报告说明,主要内容可分为以下几块,

  1. 事故现象/发生过程

  2. 事故影响范围

  3. 事故产生的原因分析

  4. 事故的紧急处理方案

  5. 事故的永久的修复方案

  6. 事故的相关责任人需要明确(非必要,需要追究在写)

总结:不管发生什么情况,首先自己不能慌,需要搞清楚问题所在,首要的不是去推卸责任而是去解决问题,不是去抱怨而是真心去挽回损失。危机时刻需要要有当机立断的决心和勇气。出了事情不要总想着逃避和推卸,而是应该勇于承担和快速的定位解决问题。

PS:话说,不知道这次事故会不会罚款和通报批评?心里怕怕的。入职第一个坑,记录一下入职第一个坑,记录一下入职第一个坑,记录一下

相关文章: