首先,领导的要求是“表示一定要严查此次事故的原因,严办此次事故的责任人”,是没有查到责任人的一个原因。还不能确定是什么原因造成事故,是谁的责任,有多大责任,就要“严办”,在现实总很可能促使无法发现真相,无法严办任何人,同时也无法改进。 其次,还是需要首先复原整个事故的过程,开始有什么征兆?谁发出过警告?如何诊断的,如何处理的,如何恢复的,要有完整详细的过程复原,最好能够找到当时的记录、日志等作为佐证。 其次,检查在现有的技术条件,流程规定和人员能力情况下,整个过程是否恰当?是发生了之前没有预料的问题,还是已经预料到了,但是执行处置过程不力? 再次,就是如何整改的问题了,如果是没有遵循流程,哪么确实要处罚,如果是技能不够,就需要培训,如果是流程和设备有漏洞,就需要整改。 最后,还需要做一些测试和演练,检验整改的措施。 处罚只是给大家一个教训,仅仅处罚是没有办法避免再次发生事故的。 |
是IT服务持续性管理出问题了,没有灾难恢复预案造成中断时间过长 靠维修来恢复2小时已经算快的了 |
感觉挺难的。 |