故障发现时间:5.22号下午3:00左右
故障响应时间:半个小时后到达现场处理
故障主要表现:两台交换机进水严重
故障处理手段:气泵冷风吹+风吹+日晒48小时
故障恢复时间:5.24号下午2:00
故障发生原因:校区停水期间未关紧阀门
故障影响范围:5.22晚上、5.23晚上两节小高数学课
故障善后处理:解决机房水管隐患、排查其他校区机房安全隐患
事故发生:5.22周二下午15:10,监控平台看到网络和服务器全部为down,初步判断为校区停电,随后钉钉也推送告警消息,十分钟后打电话给校区负责人老师询问情况,被告知校区机房漏水,机房被淹,情况比较严重,立马赶往现场,以下是第一时间现场效果图
事故处理:到达现场后第一时间确认机房电源情况,紧接着查看机柜设备,机房有2个机柜,分别为42U的IPS机柜和22U的双师机柜,因为双师机柜较远,受灾情况略轻,IPS机柜因为正对水管,比较严重。第一步,先和保洁伙伴一起处理机房的积水;第二,用干毛巾把机柜里的明显水渍清除干净;第三,把进水较为严重的网络设备拆除,单独清理,目前只有一个POE交换机和华三交换机情况比较严重。
初步判断交换机受损情况严重,经与校区负责人协商,推迟到5.24号重新上架,在此期间的课程较少,已与老师沟通好。两台网络设备经当天冷风吹干处理过后,置于校区通风、阳光处48小时后再测试上架运行。
截止5.24下午2点,所有设备都已重新上架并运行,上架后因担心会有遗留问题,针对每间教室都进行网络检测,确保每间教室的主机网络和IPS网络都能处于正常运行模式,目前都已恢复正常,并报备总部老师
问题发生期间,和行政部门沟通,通过协商物业,将问题水龙头堵死,解决聚源路校区机房的安全隐患问题,并由此引思,协助教务部门对其他校区进行机房安全隐患排查,主要包括电力隐患、水力隐患以及机房整体的环境、温度等,没有达到条件的务必整改到位,切实,高效的保障机房工作运行环境。
排查的范围:1、机柜旁边不能堵塞,保障处理问题能第一时间打开机柜门
2、机房空调保障7*24小时开机状态
3、机房不能留有活性水龙头
4、机柜附近不能留有高频率电器,如冰箱,微波炉
5、机柜电影和排插是否符合标准
6、配备消防设备设施