ITIL4中可用性管理和连续性管理的区别?
可用性管理和连续性管理两个实践在学习的过程中很容易混淆。混淆的关键就在于两个实践都是在考虑故障发生时,如何能快速恢复业务。实际上两者的差距还是非常大的,虽然在某些特殊的情况下(如:规模较小或业务不重要时)可以将二者合二为一。但是真实的应用中落地这两个实践的多数为业务比较重要,而且IT组织规模比较大的组织中。 本文从一下几个纬度来阐述下可用性管理和连续性管理的区别和联系:
- 实践的目的
- 可用性和连续性的定义
- 关键评估因素
- 核心使用的方法
- 对二者的区别进行总结
实际上,真正落地这两个实践,是非常复杂的,单凭ITIL4的两个实践的描述是不足以落地的。因此增加了,连续性管理的国标:ISO22301业务连续性国际标准和连续性管理与重大事件管理的介绍,方便大家落地实践。
01
实践目的区别
可用性管理实践的目的:是为了确保服务达到约定的可用性级别,以满足客户和用户的需求。可用性: IT服务或其它配置项在需要时执行其约定功能的能力。
连续性管理实践的目的:是确保灾难发生时,服务的可用性和性能能够保持在足够的水平。本实践提供了一个框架机制,利用产生有效响应的能力来构建组织的弹性,以保障关键利益相关者的利益,还有组织的声誉、品牌和创造价值的活动。
02
定义的区别
可用性: IT服务或其它配置项在需要时执行其约定功能的能力。可用性= (约定的服务时间-停机时间)/约定的服务时间该公式可能很有用,特别是对于资源提供服务,但它不能反映复杂的服务中断场景对业务的影响。 服务连续性:在灾难事态或破坏性事件发生后,服务提供者以可接受的预定义级别继续服务运营的能力。 灾难:一个突发的意外事态,会对组织造成巨大损坏或严重损失,如:自然灾害(地震、海啸等)、战争、网络工具、停电、关键人员不可用、大规模IT基础设施故障等。ISO将灾难定义为“一种具有高度不确定性的情况,这种情况会破坏核心业务和/或组织的信誉,并需要紧急行动”。
03
关键评价因素
可用性管理:MTBF和MTRS
可用性取决于服务发生故障的频率,以及故障恢复的速度。这些特性通常表示为平均故障间隔时间(MTBF)和平均恢复服务时间(MTRS)。 平均故障间隔时间(MTBF ):度量服务发生故障的频率。例如,平均而言,MTBF为4周的服务,每年会发生13次故障。 平均恢复服务时间(MTRS):度量故障后服务恢复的速度。例如,平均而言,MTRS为四个小时的服务,将在四个小时内从故障完全恢复。
连续性管理:RTO、MAO和RPO
连续性取决于服务恢复的时间和数据恢复的时间两个关键因素,即RTO和RPO。 恢复时间目标(RTO):由于业务功能缺失导致对组织产生严重影响之前,服务中断持续的最长时间。这就意味着在这个最大约定时间内必须重新开始生产或业务活动,或者必须恢复资源。 最大容忍中断时间/最大可接受中断(MAO):因没有提供生产/服务或执行活动而产生的,为不良影响所花费的变得不可接受的时长。通常MAO时间要大于RTO时间,MAO时间是在业务分析(BIA)中确定。 恢复点目标(RPO):活动所使用的必须恢复的信息所指向的点,以使活动在重新开始后能够有效运行。RPO定义了可容许的数据损失的时间段。如果RPO为30分钟,则在破坏性事态之前30分钟应至少有一个备份,在服务恢复后的服务交付重新开始时,距离破坏性事态之前30分钟或更短时间内的数据是可用的。 核心落地方法
可用性指标
连续性关键分析方法
最低目标服务级别:服务提供者可接受的服务级别,可以在中断期间实现其目标。灾难恢复期间,服务提供者通常应以最低目标服务级别提供服务。即使客户没有特殊要求,但达到最低服务级别也有助于尽量减小损失。 业务影响分析(BIA):服务连续性管理实践中的关键活动,用于标识重要的业务功能(VBF)及其依赖关系。这些依赖关系可能包括供应商,人员,其他业务流程和IT服务。业务影响分析定义了IT服务的恢复要求。这些要求包括RTO, RPO和每个IT服务的最低目标服务级别。 服务连续性/灾难恢复计划:一套明确定义的考虑到服务管理四维模型的计划,有关组织如何从灾难恢复并返回到灾难之前的状态。服务连续性计划用于指导服务提供者在中断后响应,恢复服务并将其还原到正常水平。 关键业务功能(VBF):是一个术语,用于反映服务中对组织的成功至关重要的部分。服务还可能支持许多不是至关重要的业务功能。例如,电子邮件服务的VBF是发送和接收电子邮件,并访问已归档的消息。访问日历的能力可能不是至关重要的。
关键功能和非关键功能之间的区别非常重要,它将会影响可用性设计和相关成本。通常业务功能越重要,它就需要越有弹性和可用性。 服务连续性和可用性的区别总结
服务连续性和可用性管理之间的界限很细微。这两种做法都涉及对可能导致服务失效的事件的风险、识别和准备的概念。 在这两种情况下,都需要了解VBFs、风险评估和服务故障的业务影响分析(BIA)。最终,这两种实践都确保了组织的抗故障能力。
[tr][/tr]
可用性管理 | 连续性管理 | 专注于高概率风险 | 重点关注高影响的风险(突发事件,灾难) | 更主动 | 更被动 | 减少不必要事件的可能性 | 减少不必要事件的影响 | 专注于技术解决方案 | 专注重组织措施 | 专注于优化 | 专注于创建冗余 | 不是公司职能的一部分 | 通常是公司职能的一部分 | 常态 | 不可抗力 | MTRS,MTBF、平均服务事件时间 | 恢复时间目标(RTO)、恢复点目标(RPO) |
服务连续性管理实践对轻度或对组织没有严重影响的短期故障不感兴趣。它关注与重大损害相关的风险,而不考虑其发生的可能性。这些通常是紧急情况:如火灾、洪水、停电、数据中心或站点故障等灾难。尽管可用性管理实践没有忽略故障对服务提供者和使用者的负面影响,但是在此过程中也会考虑单个组件的轻微中断。
可用性规划专注于满足当前和未来已约定的客户要求,并避免出现偏差。可用性管理实践通常是通过实现主动的对策和减少不需要的事件的可能性来发现和消除单点故障。
服务连续性管理实践侧重于计划管理破坏性事件的严重后果。服务连续性管理活动通常不会影响事件发生的概率。
可用性管理实践的目的是:通过合理的成本确保所提供服务的可用性,以满足客户当前和将来已约定的需求。通过优化,从业人员试图利用可用资源来达到最大程度的可用性。
连续性管理活动几乎总是在发生紧急情况时创建冗余(例如备份站点,更换设备资金,外部协议等)。这两种做法的目标之间存在着矛盾。
最后,可用性管理实践使用统计数据并分析趋势,而连续性管理实践关注的是如何响应破坏性事件。
06
连续性与事件管理(重大事件管理)
事件管理实践的活动与服务连续性管理实践的非常相似。但是,事件管理实践专注于不会威胁组织的弹性的故障,而服务连续性管理实践专注于可能会阻碍组织恢复服务交付的高影响故障。 当服务连续性计划到位并与事件管理活动分开管理时,应该有一个清晰的标准来触发服务连续性程序。在评估事件的业务影响时,支持专家应确定重大事件是否可能导致灾难,并通知危机管理组,以便他们能够做出有关启用的决定。
07
关于ISO22301 业务连续性国际标准
ISO22301 是全球首个基于组织业务连续性管理(Business Continuity Management,简称BCM)的国际标准,由ISO于2012年5月正式发布,一经推出便成为帮助组织最小化业务中断风险的得力工具。BCM顾名思义是业务的持续运行,ISO22301提供了一种完整通用的BCM方法论,让企业能够达到国际上公认的最佳实践,防止和降低破坏性事件的出现几率,确保为客户提供持续性的产品和服务,并帮助客户从破坏性事件中得到恢复。ISO 22301适用于所有行业中的大、中、小型公有及私有组织,并且特别适用于处于高风险和高度监管环境下的行业,例如金融业、IT通信业、制造业等。
|