本帖最后由 monicazhang 于 2015-7-17 14:09 编辑
1.1. 基本概念
可用性管理流程是通过计划、监控、管理以及提高IT服务的能力,来改善服务的可用性,从而保证服务级别协议(SLA)中定义的目标得以实现。 ITSS培训 该定义中,几个关键的词汇解释如下:
¨ “计划”:指的是对可用性需求的确认及应对措施制定动作。包括有:对业务需求及关键业务的分析、总结可用性需求,费用及影响的评估、具体应对措施的提出等。
¨ “管理及提高”:这是一个长期的动作,主要用来分析现在可用性管理中的漏洞、风险、单点故障,来制定出针对性的可用性改进计划,实现IT服务的可持续性提高。
¨ “监控”:这是一个日常维护的动作,主要从IT部件及业务两个方面对可用性进行监控,收集相关的数据,然后进行趋势分析及生成相关的报表,从而为决策提供信息。
¨ “能力”:指的是用以支持IT服务的一种特性,可以用以下的词汇用来描述:
ü “运行时间(Uptime)”:用来描述可以范围服务的一个词汇,通常以小时为单位,例如24×7或5×8等。通常而言,也包括正常维护或计划内宕机所造成的服务停止时间。
ü “宕机时间(Downtime)”:服务不可用的总时间,包括计划内宕机时间及计划外宕机时间两种。
ü “服务的中断(Outage)”:由网络、主机、应用等方面故障所引起的服务停止的情况。
ü “单点故障(SPOF,Single Point of Failure)”:一个模块故障会引起服务的停止的情况。
ü “容错性(Fault Tolerant)”:指的是具有多个模块,以防止其中一个模块故障而使服务停止的能力。主要用来消除单点故障。
¨ “可用性(Availability)”:通常用百分比的形式来描述,等于用户可以访问IT服务的时间除以总时间。 另外可用性也可以用以下的方法来描述:
ü “可靠性(Reliability)”:发生服务停止事件的频率。
ü “可维护性(Maintainability)”:描述对IT组件进行错误修复的能力。
ü “服务的弹性(Resilience)”:描述IT组件为了消除SPOF的冗余程度。例如:在一个容错系统中,当一条线路发生故障后,可以切换到另外一条线路中使用,因此,必须保证切换过去之后的线路有足够的带宽,它必须有一定的冗余,这就是弹性(Resilience)。
ü “可服务性(Serviceability)”:在外包合同或OLA中,用以描述管理IT组件的能力。 ¨ “SLA中定义的目标”:会针对IT服务的可用性,在SLA中规定一些目标,而可用性管理必须保证这些目标得以实现。 通常会包括:
ü “平均修复时间(MTTR,Mean Time To Repair)”:用来衡量可维护性的一个指标,指的是从故障发现到服务修复的平均时间。是以多少秒来衡量。
ü “平均无故障时间(MTBF,Mean Time Between Failure)”:用来衡量可用性的一个指标,指的是服务正常运行的平均时间。是以多少秒来衡量。
ü “年度故障率(AFR,Annual Failure Rate)”:用来衡量可靠性的一个指标,指的是每年发生错误的次数。以百分比来衡量,200%指的是每年发生两次错误,而50%指的是两年发生一次错误。
在CPIC的服务管理体系中,“可用性管理流程”属于“IT服务设计与管理类”,与“连续性管理”紧密结合,同时配合“服务级别管理流程”来实现对服务的管理,来提高整体的可用性。
服务管理体系 ( IT Service Management )
1.2. 范围
下表对一些容易混淆的地方做了说明,用来表明可用性流程的工作覆盖范围:
适用范围 | 包括 | 不包括 | ¨ 计划服务的可用性。¨ 设计如何提高服务的可用性,包括对中断的预见、对计划宕机时间的管理、对IT能力的评估、对可用性的估计及衡量等。 | ¨ 对服务中出现的错误进行响应,从而恢复正常的运转。(这是突发事件管理的内容)。¨ 当出现灾难时,将服务从中断状态下恢复到正常。(这是连续性管理的内容)。 | 根据SLA中定义的可用性目标,通过本流程来保证可用性水平可以达到。 | 签订SLA(这是服务级别管理的内容)。 | 保证可用性应对措施有最佳的性价比。 | 为应对措施的实施来申请预算(这是预算管理的内容)。 | 分析重大突发事件的生命周期,从而减少突发事件的持续时间。 | ¨ 从根本原因上消除突发事件的产生(这是问题管理的内容)。¨ 对突发事件采取一个系统化、规范化的处理方式。(这是突发事件管理的内容)。 | 得到关键业务清单及确定业务部门对其的可用性需求。 | 使用业务影响分析来确定关键业务(是连续性管理的内容)。 |
|
|
1.3. 用途和目标
该流程通过优化IT基础框架、服务以及组织的能力,从而提供最有效的、最稳定的服务可用性,来最大化的支持业务的正常运行,实现业务的相关目标。
ITSS认证
具体包括:
l 确保IT服务的可用性可以满足业务的需要。 l 提供一定范围的IT服务可用性报表,从而反应出日常操作过程中的运行情况。 l 优化IT基础设施的可用性(包括:可用性、可靠性、可维护性以及可服务性)。 l 确保所有的不足可以被识别,同时制定相应的改进计划,并被严格执行。 l 编制及维护可用性计划,从而实现可持续性的发展。
目前CPIC的可用性管理流程的成熟度评分是0.7,在实施完P03项目后,CPIC可用性管理流程的成熟度评分将达到3.0以上,会有以下方面的改善:
l 建立统一的可用性管理规范和流程,并且有标准化、系统化的文档。 l 会进行规范化的可用性分析、可用性提高、可用性监控的动作。 l 会对关键业务提供相关的可用性报表。 l 该流程会有明确的负责人且有清晰的角色定义。
1.4. 对组织的效益
主要包括如下几个方面:
· 降低风险 签订SLA之前,需要得到可用性流程的支持,而可用性流程会对服务的系统框架进行详细的分析,找出其中的薄弱点,这可以降低违反SLA的风险。
同时,一个良好的可用性管理可以降低服务受影响的风险。
· 降低成本 通过定义一个合理的可用性目标,可以减少应对措施实施的成本。
同时,可用性管理对突发事件管理提供支持,从而降低支持、维护的费用。
· 改善应用的敏捷性 当业务部门的可用性要求改变时,可用性管理可以迅速的响应,来制定对应的可用性需求,来最大化的满足业务的需要。 · 改善应用的质量 会进行重大突发事件的分析、服务中断分析等等,这可以明显的提高服务的可用性。
1.5. 假设
为了保证可用性管理流程能够顺利执行,需要有一些假设条件。
¨ 可持续管理流程、配置管理流程及服务级别管理流程已经运行。
¨ 可用性管理是为了满足SLA的目标而定义的。
¨ 可以接受的计划内宕机时间及计划外宕机时间,必须得到用户的同意。
1.6. 流程的远景
本指南所提供的流程参考,旨在对于CPIC的IT可用性管理提供指导性的意见,通过有效合理的控制实现可用性管理,鉴于目前IT分布式管理的现状和统一集中运行管理的目标,建议考虑采取以下实施策略:
原则: ¨ 产险、寿险、集团都必须采用相同的流程。
¨ 可用性管理必须以满足SLA为目标,必须以支持业务部门的运行为最终目的。
第一阶段:同步运行
对于目前情况,CPIC分为产险、寿险及集团三个部分,建议采用“同步使用”的方法,即产险、寿险及集团按照流程指南,分别对本部门的可用性管理进行控制。在部署可用性管理流程的时候,可以先从本部门中关键服务开始。
第二阶段:集中管理
当达到全集团统一运行管理的状态后,建议采用完全集中式的管理模式,由于已经成功的完成了第一阶段的运行,因此集中化的动作会比较平滑:
1.7. 参考材料
¨ OGC的ITIL Service Delivery Version 1.1 ¨ HP公司的最佳实践 ¨ HP ITSM参考模型3.0中的《可用性管理流程指南》 ITSS考试
本帖关键字:ITSS |