xuwei_itil 发表于 2013-6-25 07:24:40

superray 发表于 2013-6-25 08:40:15

银行做系统升级,肯定有详细的预案,还会有一大帮原厂的工程师在现场候着,出了问题,肯定会第一时间回退的。只是为什么是上午10点才出问题,而不是凌晨,升级一般会选在后半夜的啊?

azhe 发表于 2013-6-25 08:53:05

superray 发表于 2013-6-25 08:40 static/image/common/back.gif
银行做系统升级,肯定有详细的预案,还会有一大帮原厂的工程师在现场候着,出了问题,肯定会第一时间回退的 ...

分析得有道理,所以期待正解。
官方的解释升级是没问题的,等到上午业务量上来后才触发了故障。这里面的监控、容量管理机制也需要考量。

kaiwkaiw 发表于 2013-6-25 18:00:29

还有一种情况是,数据库和容量都没有问题,但是大批量业务上来后,其中某一笔特殊交易造成后台死循环,撑死系统。
原来做自助设备出现过此类问题,好象是手续费多方分润造成的。:lol:lol:lol

dubin 发表于 2013-6-28 14:04:12

不是运维事故,而是在一个敏感的时间,在出现问题的基础上,通过该事件,达到发布某种信息的目的。
页: 1 2 [3] 4 5
查看完整版本: 来讨论下XX行这次事故的IT运维管理启示