可用性管理流程的概念和ITSS远景

monicazhang

本帖最后由 monicazhang 于 2015-7-17 14:09 编辑

20150717 淡然

续上

1. 介绍

1.1. 基本概念

可用性管理流程是通过计划、监控、管理以及提高IT服务的能力，来改善服务的可用性，从而保证服务级别协议(SLA)中定义的目标得以实现。 ITSS培训

该定义中，几个关键的词汇解释如下：

¨ “计划”：指的是对可用性需求的确认及应对措施制定动作。包括有：对业务需求及关键业务的分析、总结可用性需求，费用及影响的评估、具体应对措施的提出等。

¨ “管理及提高”：这是一个长期的动作，主要用来分析现在可用性管理中的漏洞、风险、单点故障，来制定出针对性的可用性改进计划，实现IT服务的可持续性提高。

¨ “监控”：这是一个日常维护的动作，主要从IT部件及业务两个方面对可用性进行监控，收集相关的数据，然后进行趋势分析及生成相关的报表，从而为决策提供信息。

¨ “能力”：指的是用以支持IT服务的一种特性，可以用以下的词汇用来描述：

ü “运行时间（Uptime）”：用来描述可以范围服务的一个词汇，通常以小时为单位，例如24×7或5×8等。通常而言，也包括正常维护或计划内宕机所造成的服务停止时间。

ü “宕机时间（Downtime）”：服务不可用的总时间，包括计划内宕机时间及计划外宕机时间两种。

ü “服务的中断（Outage）”：由网络、主机、应用等方面故障所引起的服务停止的情况。

ü “单点故障（SPOF，Single Point of Failure）”:一个模块故障会引起服务的停止的情况。

ü “容错性（Fault Tolerant）”：指的是具有多个模块，以防止其中一个模块故障而使服务停止的能力。主要用来消除单点故障。

¨ “可用性（Availability）”：通常用百分比的形式来描述，等于用户可以访问IT服务的时间除以总时间。

另外可用性也可以用以下的方法来描述：

ü “可靠性（Reliability）”：发生服务停止事件的频率。

ü “可维护性（Maintainability）”：描述对IT组件进行错误修复的能力。

ü “服务的弹性（Resilience）”：描述IT组件为了消除SPOF的冗余程度。例如：在一个容错系统中，当一条线路发生故障后，可以切换到另外一条线路中使用，因此，必须保证切换过去之后的线路有足够的带宽，它必须有一定的冗余，这就是弹性（Resilience）。

ü “可服务性（Serviceability）”：在外包合同或OLA中，用以描述管理IT组件的能力。

¨ “SLA中定义的目标”：会针对IT服务的可用性，在SLA中规定一些目标，而可用性管理必须保证这些目标得以实现。

通常会包括：

ü “平均修复时间（MTTR，Mean Time To Repair）”：用来衡量可维护性的一个指标，指的是从故障发现到服务修复的平均时间。是以多少秒来衡量。

ü “平均无故障时间（MTBF，Mean Time Between Failure）”：用来衡量可用性的一个指标，指的是服务正常运行的平均时间。是以多少秒来衡量。

ü “年度故障率（AFR，Annual Failure Rate）”：用来衡量可靠性的一个指标，指的是每年发生错误的次数。以百分比来衡量，200％指的是每年发生两次错误，而50％指的是两年发生一次错误。

在CPIC的服务管理体系中，“可用性管理流程”属于“IT服务设计与管理类”，与“连续性管理”紧密结合，同时配合“服务级别管理流程”来实现对服务的管理，来提高整体的可用性。

服务管理体系（ IT Service Management ）

1.2. 范围

下表对一些容易混淆的地方做了说明，用来表明可用性流程的工作覆盖范围：

适用范围
包括	不包括
¨ 计划服务的可用性。¨ 设计如何提高服务的可用性，包括对中断的预见、对计划宕机时间的管理、对IT能力的评估、对可用性的估计及衡量等。	¨ 对服务中出现的错误进行响应，从而恢复正常的运转。（这是突发事件管理的内容）。¨ 当出现灾难时，将服务从中断状态下恢复到正常。（这是连续性管理的内容）。
根据SLA中定义的可用性目标，通过本流程来保证可用性水平可以达到。	签订SLA（这是服务级别管理的内容）。
保证可用性应对措施有最佳的性价比。	为应对措施的实施来申请预算（这是预算管理的内容）。
分析重大突发事件的生命周期，从而减少突发事件的持续时间。	¨ 从根本原因上消除突发事件的产生（这是问题管理的内容）。¨ 对突发事件采取一个系统化、规范化的处理方式。（这是突发事件管理的内容）。
得到关键业务清单及确定业务部门对其的可用性需求。	使用业务影响分析来确定关键业务（是连续性管理的内容）。

1.3. 用途和目标

该流程通过优化IT基础框架、服务以及组织的能力，从而提供最有效的、最稳定的服务可用性，来最大化的支持业务的正常运行，实现业务的相关目标。
ITSS认证

具体包括：

l 确保IT服务的可用性可以满足业务的需要。

l 提供一定范围的IT服务可用性报表，从而反应出日常操作过程中的运行情况。

l 优化IT基础设施的可用性（包括：可用性、可靠性、可维护性以及可服务性）。

l 确保所有的不足可以被识别，同时制定相应的改进计划，并被严格执行。

l 编制及维护可用性计划，从而实现可持续性的发展。

目前CPIC的可用性管理流程的成熟度评分是0.7，在实施完P03项目后，CPIC可用性管理流程的成熟度评分将达到3.0以上，会有以下方面的改善：

l 建立统一的可用性管理规范和流程，并且有标准化、系统化的文档。

l 会进行规范化的可用性分析、可用性提高、可用性监控的动作。

l 会对关键业务提供相关的可用性报表。

l 该流程会有明确的负责人且有清晰的角色定义。

1.4. 对组织的效益

主要包括如下几个方面：

· 降低风险

签订SLA之前，需要得到可用性流程的支持，而可用性流程会对服务的系统框架进行详细的分析，找出其中的薄弱点，这可以降低违反SLA的风险。

同时，一个良好的可用性管理可以降低服务受影响的风险。

· 降低成本

通过定义一个合理的可用性目标，可以减少应对措施实施的成本。

同时，可用性管理对突发事件管理提供支持，从而降低支持、维护的费用。

· 改善应用的敏捷性

当业务部门的可用性要求改变时，可用性管理可以迅速的响应，来制定对应的可用性需求，来最大化的满足业务的需要。

· 改善应用的质量

会进行重大突发事件的分析、服务中断分析等等，这可以明显的提高服务的可用性。

1.5. 假设

为了保证可用性管理流程能够顺利执行，需要有一些假设条件。

¨ 可持续管理流程、配置管理流程及服务级别管理流程已经运行。

¨ 可用性管理是为了满足SLA的目标而定义的。

¨ 可以接受的计划内宕机时间及计划外宕机时间，必须得到用户的同意。

1.6. 流程的远景

本指南所提供的流程参考，旨在对于CPIC的IT可用性管理提供指导性的意见，通过有效合理的控制实现可用性管理，鉴于目前IT分布式管理的现状和统一集中运行管理的目标，建议考虑采取以下实施策略：

原则：

¨ 产险、寿险、集团都必须采用相同的流程。

¨ 可用性管理必须以满足SLA为目标，必须以支持业务部门的运行为最终目的。

第一阶段：同步运行

对于目前情况，CPIC分为产险、寿险及集团三个部分，建议采用“同步使用”的方法，即产险、寿险及集团按照流程指南，分别对本部门的可用性管理进行控制。在部署可用性管理流程的时候，可以先从本部门中关键服务开始。

第二阶段：集中管理

当达到全集团统一运行管理的状态后，建议采用完全集中式的管理模式，由于已经成功的完成了第一阶段的运行，因此集中化的动作会比较平滑：

1.7. 参考材料

¨ OGC的ITIL Service Delivery Version 1.1

¨ HP公司的最佳实践

¨ HP ITSM参考模型3.0中的《可用性管理流程指南》 ITSS考试

待续：http://ITIL-foundation.cn/thread-51745-1-1.html

本帖关键字：ITSS

上一篇：ITSS可用性管理流程指南文档清单
下一篇：可用性管理的常见ITSS技术分析方法

愁容骑士 · 发表于 2018-5-9 13:46:20

学习下，多谢分享

東東 · 发表于 2020-11-24 11:07:36

感谢分享知识，谢谢。

東東 · 发表于 2020-11-25 13:30:59

超赞的资料，学习中

東東 · 发表于 2020-11-25 16:07:38

超赞的资料，学习中

可用性管理流程的概念和ITSS远景

评论