本文出自 转载等请务必保留此出处
在当今服务导向的业务环境下,企业业务持续运作的能力,在很大程度上决定了其在市场上的竞争优势。对那些业务运作较多地依赖于IT的企业而言,IT服务持续运作的能力则成为决定企业竞争优势的直接因素。尤其是在发生重大灾难的情况下,如何确保IT服务运作的持续性,是值得IT服务管理人员特别关注的问题。在美国“9.11”事件之后,人们越发认识到加强IT服务持续性管理的重要性。
BCM与ITSCM
BCM,即业务持续性管理(Business Continuity Management),是指将业务运作所面临的风险控制在最低水平,以及在业务运作中断后立即恢复业务运作的业务管理流程。组织实施这一流程的根本目的在于确保组织业务的持续运作,其关注的对象是所有影响组织业务持续运作的因素。业务持续性管理一般包括启动、需求分析、战略规划和实施以及运作管理四个阶段。
ITSCM,即IT服务持续性管理(IT Service Continuity Management),是指负责预防灾难发生、增强IT基础架构的恢复能力(Resilience)和容错能力(Fault Tolerance),并在灾难发生后迅速恢复IT服务正常运作的服务管理流程。IT服务持续性管理需要确保组织在灾难发生后有足够的技术、财务和管理资源来维持IT服务的持续运作。
这里所说的灾难(Disaster)是指严重影响IT服务正常运作甚至导致IT服务中断的外来事故,如地震、火灾、失窃、恐怖袭击、网络恶意攻击、大范围电力中断等。预防灾难的发生和灾难发生后实施恢复方案是IT服务持续性管理的主要任务。
IT服务持续性管理是企业总体业务持续性管理的一个部分。IT服务持续性管理主要关注那些支持企业关键业务流程运作的关键IT服务项目,尤其是那些可能对业务运作产生较大影响的IT服务项目以及发生重大灾难可能性较高的IT服务项目;而企业的总体业务持续性管理必须关注业务运作所需的所有服务的持续性,IT服务只是其中的一个方面。
因为IT服务持续性管理和业务持续性管理之间,存在这种相互融合的关系,IT服务持续性计划,一般是作为企业总体业务持续性计划的一部分来制定的。而IT服务持续性管理的实施,一般也是按照业务持续性管理所确定的业务持续性周期(Business Continuity Lifecycle),即上述四个阶段来进行的。
由此可见,IT服务持续性管理是为总体的业务持续性管理提供支持的。这种支持的有效性依赖于IT服务持续性管理能否发挥好“保健医生”和“急诊大夫”的双重职能。下面分别对IT服务持续性管理这两方面的职能进行介绍。
作为“保健医生”的ITSCM
为了避免灾难的发生导致IT服务的中断,IT服务持续性管理需要对支持关键业务流程的IT服务项目实施“保健”措施,即找出灾难发生可能性较大的环节,并制定相应的预防措施。这就好比对健康的人实施一定的保健和预防措施,以避免疾病的发生。具体来说,IT服务持续性管理实施“保健”措施主要有以下两项基本活动:
实施业务影响分析(BIA,Business Impact Analysis)
为了主动地实施持续性管理,管理人员需要确定当灾难或其他因素导致IT服务中断时,组织能够承受损失的最大程度及损失扩散的速度。通过业务影响分析可以帮助IT持续性管理人员了解哪些属于关键业务流程、关键业务流程发生中断可能对组织产生的损害或损失、服务中断发生后危害或损失程度的变化趋势等方面的信息,从而有助于实施风险评估。
实施风险评估(Risk Assessment)
实施风险评估可以帮助识别IT服务运作过程中存在的具体风险,从而明确相关的薄弱环节和存在的威胁。风险评估包括风险分析(Risk Analysis)和风险管理(Risk Management)两个环节。如图1所示。风险分析主要负责识别和评价IT组件(资产)中存在的薄弱环节和威胁,并据此评估风险的大小。风险管理则主要针对这些风险制定相应的风险降低措施、灾难恢复方案或备用方案。
作为“急诊大夫”的ITSCM
针对IT服务运作的风险制定的风险降低措施,只能在一定程度上降低灾难发生的概率,但不可能完全避免灾难的发生。所以,理所当然的一个问题是,如果灾难发生该如何应付?这时,为了维持IT服务的持续运作,需要IT服务持续性管理发挥“急诊大夫”的职能,确保灾难制造的混乱在“第一时间”内得到恢复,从而将由于IT服务运作的中断对业务运作造成的影响控制在可接受的范围内。具体来说,IT服务持续性管理作为“急诊大夫”,在应对灾难发生时,可以采取的措施主要有以下两种:
实施灾难恢复方案
IT服务持续性管理在履行“保健医生”职能时已经针对IT服务运作中存在的薄弱环节或威胁制定了相应的灾难恢复方案。在灾难实际发生时,IT服务持续性管理人员应当首先确认灾难的发生环节,并实施相应的灾难恢复方案。在实施灾难恢复方案前应当制定相应的实施计划,并确保在最短的时间内恢复IT服务的运作。灾难恢复的方式主要包括逐渐恢复、中期恢复和紧急恢复三种(见本文背景资料介绍),IT服务持续性管理人员需要根据业务的性质及灾难的损害程度选择合理的恢复方式。
实施备用方案
有时候,灾难恢复方案的实施本身依赖于备用方案的实施。实施备用方案可以确保IT服务中断的时间被减小到最低程度,但备用方案的实施本身也可能导致资源的闲置。因此,IT服务持续性管理人员应当根据业务的关键程度和紧急程度选择是否制定和实施备用方案。在实施备用方案时可以采取的行动包括准备备用的场所、购买和安装备用计算机系统、与外部供应商就恢复设施进行协商并达成有关的协议安排等。
由于ITSM强调以合理的成本实现对IT服务的有效管理,所以资源有限的情况下,必须将主要的精力放在那些关键的业务流程和关键的IT服务项目上面。IT服务持续性管理就充分体现了这一内在要求,即IT服务管理主要“瞄准”的是那些关键业务流程中可能发生的灾难,并为此提供及时有效的支持。
背景资料:灾难恢复方式
1. 逐渐恢复(Gradual recovery)
即冷支持(Cold stand-by)。当组织采用这种恢复方案时,可以不用立即恢复业务流程和重建所有IT设施,而能在72小时或更长的时间内继续维持IT服务运作。逐渐恢复要求组织提供装备了以下设施的场所:电力、环境控制措施、局域网集线器、通信连接。在发生灾难时,组织可以利用这些设施重新装配计算机系统。
2.
中期恢复(Intermediate recovery)
即暖支持(Warm stand-by),通常是指在24小时到72小时内重建关键系统和服务的方法。该方法被组织用于在预定时间内恢复IT设施,从而避免其对业务流程造成影响。
3.
紧急恢复(Immediate recovery)
指发生不可挽回的灾难后立即恢复有关IT服务的运作。紧急恢复不同于热支持(Hot stand-by),热支持通常是指在较短的时间内(如2~4小时内)恢复服务的可用性,而紧急恢复指灾难发生后立即恢复服务的可用性。
|