daisy8 发表于 2013-1-5 16:31:53

从中行大机宕机4小时说起

【腾讯数码消息】
source/attachments/image/20130105/20130105113750_99419.jpg
    12月15日下午,中国银行采用的IBM大型机在运行过程中突然宕机,时间长达4个小时。
    大型机一直给人以“稳定、安全”的概念,事实上这也正是IBM在宣传时所特意强调的,但本次大型机的宕机无异于对这种说法进行了驳斥。
source/attachments/image/20130105/20130105113821_80717.jpg
    对政府、国防、安全、电信、金融、交通、医疗等关系到国计民生的行业的关键业务来说,都需要遵循“5个9”(99.999)、“6个9”(99.9999%)甚至“7个9”(99.99999%)的标准来加以评估,而这些标准代表的,就是一台服务器每年的非计划停机时间分别只有5分钟、30秒和3秒钟。由此我们可以想象本次4小时宕机的时间是多么漫长,所造成的损失又是多么巨大。
    作为单机系统来说,无论设计得如何精妙,维护得如何稳定,都不可能保证100%的无宕机。
source/attachments/image/20130105/20130105113838_66375.jpg
    在本次宕机事件中,网友们热烈讨论的就是为什么系统没有在第一时间切换到备份服务器,一般说来备份分为本地和异地备份两部分,也是许多数据中心都在应用的模型。在金融行业中,通行一种名为“两地三中心”容灾备份系统的概念,许多银行也都在采用这样的备份模式。但是从这次宕机的结果来看,备份系统并没有起到丝毫的作用。
        笔者认为,之所以中国银行没有迅速切换到备份系统,还要归咎于金融行业的业务特殊性和大型机所带来的心理安全感。一般来说目前灾备中心采用主备模式,多数情况下IT设备处于闲置状态。平时这些设备可以用于测试环境或者准生产环境,提高了设备使用率。此外,采用虚拟化技术,将灾备中心的服务器配置成多台虚拟机,分给不同的用户所使用,充分地使用硬件资源,也降低了灾备中心设备的能耗。另一方面,银行的灾备系统主要以模拟方式进行,通过桌面模拟演练和Call Tree演练,验证灾备体系的可用性和有效性,只是大家迷信于大型机的“稳定、可靠”,备份系统恐怕从未应用过,更别提在关键时刻担当重任。        更重要的原因是,本次宕机的是负责信用卡业务的服务器,如果启用备份系统,由于存在应用上的未知性,没人知道启动之后会出现什么问题。而据供职于央行的某位IT顾问透露,任何时候银行系统出现问题,都需要一把手拍板做决定,其他人没有这个责任和胆量启动预备系统。由此也不难理解为什么本次中国银行宕机事件没有迅速解决的原因了。原文链接:zt2013/syibm/index.htm?pgv_ref=aio2012&ptlang=2052

bs15000 发表于 2013-1-5 21:04:24

【腾讯数码消息】
source/attachments/image/20130105/20130105113750_99419.jpg
    12月15日下午,中国银行采用的IBM大型机在运行过程中突然宕机,时间长达4个小时。
    大型机一直给人以“稳定、安全”的概念,事实上这也正是IBM在宣传时所特意强调的,但本次大型机的宕机无异于对这种说法进行了驳斥。
source/attachments/image/20130105/20130105113821_80717.jpg
    对政府、国防、安全、电信、金融、交通、医疗等关系到国计民生的行业的关键业务来说,都需要遵循“5个9”(99.999)、“6个9”(99.9999%)甚至“7个9”(99.99999%)的标准来加以评估,而这些标准代表的,就是一台服务器每年的非计划停机时间分别只有5分钟、30秒和3秒钟。由此我们可以想象本次4小时宕机的时间是多么漫长,所造成的损失又是多么巨大。
    作为单机系统来说,无论设计得如何精妙,维护得如何稳定,都不可能保证100%的无宕机。
source/attachments/image/20130105/20130105113838_66375.jpg
    在本次宕机事件中,网友们热烈讨论的就是为什么系统没有在第一时间切换到备份服务器,一般说来备份分为本地和异地备份两部分,也是许多数据中心都在应用的模型。在金融行业中,通行一种名为“两地三中心”容灾备份系统的概念,许多银行也都在采用这样的备份模式。但是从这次宕机的结果来看,备份系统并没有起到丝毫的作用。
        笔者认为,之所以中国银行没有迅速切换到备份系统,还要归咎于金融行业的业务特殊性和大型机所带来的心理安全感。一般来说目前灾备中心采用主备模式,多数情况下IT设备处于闲置状态。平时这些设备可以用于测试环境或者准生产环境,提高了设备使用率。此外,采用虚拟化技术,将灾备中心的服务器配置成多台虚拟机,分给不同的用户所使用,充分地使用硬件资源,也降低了灾备中心设备的能耗。另一方面,银行的灾备系统主要以模拟方式进行,通过桌面模拟演练和Call Tree演练,验证灾备体系的可用性和有效性,只是大家迷信于大型机的“稳定、可靠”,备份系统恐怕从未应用过,更别提在关键时刻担当重任。        更重要的原因是,本次宕机的是负责信用卡业务的服务器,如果启用备份系统,由于存在应用上的未知性,没人知道启动之后会出现什么问题。而据供职于央行的某位IT顾问透露,任何时候银行系统出现问题,都需要一把手拍板做决定,其他人没有这个责任和胆量启动预备系统。由此也不难理解为什么本次中国银行宕机事件没有迅速解决的原因了。原文链接:zt2013/syibm/index.htm?pgv_ref=aio2012&ptlang=2052

huangjie528 发表于 2013-1-6 01:06:02

【腾讯数码消息】
source/attachments/image/20130105/20130105113750_99419.jpg
    12月15日下午,中国银行采用的IBM大型机在运行过程中突然宕机,时间长达4个小时。
    大型机一直给人以“稳定、安全”的概念,事实上这也正是IBM在宣传时所特意强调的,但本次大型机的宕机无异于对这种说法进行了驳斥。
source/attachments/image/20130105/20130105113821_80717.jpg
    对政府、国防、安全、电信、金融、交通、医疗等关系到国计民生的行业的关键业务来说,都需要遵循“5个9”(99.999)、“6个9”(99.9999%)甚至“7个9”(99.99999%)的标准来加以评估,而这些标准代表的,就是一台服务器每年的非计划停机时间分别只有5分钟、30秒和3秒钟。由此我们可以想象本次4小时宕机的时间是多么漫长,所造成的损失又是多么巨大。
    作为单机系统来说,无论设计得如何精妙,维护得如何稳定,都不可能保证100%的无宕机。
source/attachments/image/20130105/20130105113838_66375.jpg
    在本次宕机事件中,网友们热烈讨论的就是为什么系统没有在第一时间切换到备份服务器,一般说来备份分为本地和异地备份两部分,也是许多数据中心都在应用的模型。在金融行业中,通行一种名为“两地三中心”容灾备份系统的概念,许多银行也都在采用这样的备份模式。但是从这次宕机的结果来看,备份系统并没有起到丝毫的作用。
        笔者认为,之所以中国银行没有迅速切换到备份系统,还要归咎于金融行业的业务特殊性和大型机所带来的心理安全感。一般来说目前灾备中心采用主备模式,多数情况下IT设备处于闲置状态。平时这些设备可以用于测试环境或者准生产环境,提高了设备使用率。此外,采用虚拟化技术,将灾备中心的服务器配置成多台虚拟机,分给不同的用户所使用,充分地使用硬件资源,也降低了灾备中心设备的能耗。另一方面,银行的灾备系统主要以模拟方式进行,通过桌面模拟演练和Call Tree演练,验证灾备体系的可用性和有效性,只是大家迷信于大型机的“稳定、可靠”,备份系统恐怕从未应用过,更别提在关键时刻担当重任。        更重要的原因是,本次宕机的是负责信用卡业务的服务器,如果启用备份系统,由于存在应用上的未知性,没人知道启动之后会出现什么问题。而据供职于央行的某位IT顾问透露,任何时候银行系统出现问题,都需要一把手拍板做决定,其他人没有这个责任和胆量启动预备系统。由此也不难理解为什么本次中国银行宕机事件没有迅速解决的原因了。原文链接:zt2013/syibm/index.htm?pgv_ref=aio2012&ptlang=2052

realpt 发表于 2013-1-7 10:33:49

【腾讯数码消息】
source/attachments/image/20130105/20130105113750_99419.jpg
    12月15日下午,中国银行采用的IBM大型机在运行过程中突然宕机,时间长达4个小时。
    大型机一直给人以“稳定、安全”的概念,事实上这也正是IBM在宣传时所特意强调的,但本次大型机的宕机无异于对这种说法进行了驳斥。
source/attachments/image/20130105/20130105113821_80717.jpg
    对政府、国防、安全、电信、金融、交通、医疗等关系到国计民生的行业的关键业务来说,都需要遵循“5个9”(99.999)、“6个9”(99.9999%)甚至“7个9”(99.99999%)的标准来加以评估,而这些标准代表的,就是一台服务器每年的非计划停机时间分别只有5分钟、30秒和3秒钟。由此我们可以想象本次4小时宕机的时间是多么漫长,所造成的损失又是多么巨大。
    作为单机系统来说,无论设计得如何精妙,维护得如何稳定,都不可能保证100%的无宕机。
source/attachments/image/20130105/20130105113838_66375.jpg
    在本次宕机事件中,网友们热烈讨论的就是为什么系统没有在第一时间切换到备份服务器,一般说来备份分为本地和异地备份两部分,也是许多数据中心都在应用的模型。在金融行业中,通行一种名为“两地三中心”容灾备份系统的概念,许多银行也都在采用这样的备份模式。但是从这次宕机的结果来看,备份系统并没有起到丝毫的作用。
        笔者认为,之所以中国银行没有迅速切换到备份系统,还要归咎于金融行业的业务特殊性和大型机所带来的心理安全感。一般来说目前灾备中心采用主备模式,多数情况下IT设备处于闲置状态。平时这些设备可以用于测试环境或者准生产环境,提高了设备使用率。此外,采用虚拟化技术,将灾备中心的服务器配置成多台虚拟机,分给不同的用户所使用,充分地使用硬件资源,也降低了灾备中心设备的能耗。另一方面,银行的灾备系统主要以模拟方式进行,通过桌面模拟演练和Call Tree演练,验证灾备体系的可用性和有效性,只是大家迷信于大型机的“稳定、可靠”,备份系统恐怕从未应用过,更别提在关键时刻担当重任。        更重要的原因是,本次宕机的是负责信用卡业务的服务器,如果启用备份系统,由于存在应用上的未知性,没人知道启动之后会出现什么问题。而据供职于央行的某位IT顾问透露,任何时候银行系统出现问题,都需要一把手拍板做决定,其他人没有这个责任和胆量启动预备系统。由此也不难理解为什么本次中国银行宕机事件没有迅速解决的原因了。原文链接:zt2013/syibm/index.htm?pgv_ref=aio2012&ptlang=2052

kokotiger 发表于 2013-1-23 12:46:41

页: [1]
查看完整版本: 从中行大机宕机4小时说起