来讨论下XX行这次事故的IT运维管理启示
相信大家都关注到了周末XX银行系统的故障;从ITSM角度看,应该也是值得广泛讨论的经典案例;尤其是了解内幕的朋友,欢迎多多分享。。。
特收集一些信息如下供大家参考,欢迎广泛讨论,如下点供大家参考:
1. 变更的公告和时间窗口选择;
2. 变更的风险评估和控制、以及应急回退机制;
3. 异常期间呼叫中心(客户联络点)的作用;
4. 如何避免、恢复损失
5. 其他任何。。。
=============================
背景:受人民银行系统维护和停运影响,多家银行于6月22~23日(周末)进行系统升级
过程:
6月19日:XX银行官网发布维护通告
6月23日上午:中国XX银行全国性系统故障、影响网银、柜台、ATM等等绝大部分用户系统。
6月23日中午12:50:X行微博发出公告:
10点38分至11点23分,中国XX银行部分地区因计算机系统升级原因造成柜面和电子渠道业务办理缓慢。
目前系统已恢复,各项业务正常办理。XX银行对因此给客户带来的不便深表歉意。
相关媒体报道:
《新华网》因计算机系统升级导致故障 X行业务昨“瘫痪”一小时
《网易财经》多家银行升级仅X行出故障 客户抱怨有损失
《京华时报》X行系统瘫痪 服务也应500强
《腾讯财经》XX银行网络系统瘫痪 回应称是系统升级
《新民报》系统升级业务“瘫痪”近1小时 X行:无损失
期待您的卓见!
{:soso_e100:},我来宣传一下 gogoat 发表于 2013-6-24 12:40 static/image/common/back.gif
,我来宣传一下
谢谢老大! 这类问题,其实在平时的报障中经常出现。
这类问题有一个比较关键,也是很多人比较容易忽略的地方,就是系统没有相应的应急预案,当问题出现时,没法启动执行本来应该准备好的应急措施造成的。
吸取本次故障,好好分析总结下,今后完全可以避免的。