20150625 MONICAZHANG 续上
8. 可用性管理流程 1. 流程目的 可用性管理的用途是确保所有设计的 IT 服务均能以连贯且符合成本效益原则的途径实现业务所需的可用性水平。它通过优化IT基础架构、服务以及组织的能力,从而提供最有效的、最稳定的服务可用性,来最大化的支持业务的正常运行,实现业务的相关目标。 ITSS软件 可用性管理的目标是: n 确保所设计的IT服务的可用性满足业务的需求 n 提供IT服务可用性报告,确保达成一致级别的可用性目标能得到持续衡量和监测 n 优化IT基础设施的可用性(包括:可靠性、可维护性以及可服务性),从而交付合理成本效益的服务,为业务部门带来实际的好处 n 致力于减少故障发生的时间和频率来降低对服务可用性的影响 ITIL培训 n 确保识别与可用性相关的所有的缺陷,同时制定相应的改进计划,并能执行和跟进 n 制定及维护前瞻性的可用性计划,不断提高IT服务的整体可用性和组件可用性,从而满足业务的需求 可用性管理流程的触发条件是规划新的IT服务、新签或更新服务级别协议、服务可用性周期回顾等。 可用性管理流程的输入是:来自服务规划的新服务设计说明或已有服务增强功能的设计说明、运维管理的可用性监控数据、服务级别管理的SLAs、、CI属性及关系、事件和问题的趋势分析、业务连续性的业务影响度分析等。 可用性管理流程的输出是:可用性建议方案、为提高可用性需求而带来的成本分析、服务级别管理要求的可用性需求评估建议、变更管理要求的可用性影响分析结果、可用性计划等。 ITSS培训
2. 流程范围 下面表格中说明了哪些工作属于可用性管理流程的范围,哪些不是。 表格 2‑3 可用性管理范围 [td] 包括
| | 规划新IT服务的可用性
| 对服务中出现的错误进行响应,从而恢复正常的运转(事件管理) | 设计服务的可用性,包括对中断的定义、对计划宕机时间的管理、对可用性的估计及衡量等
| 当出现灾难时,将服务从中断状态下恢复到正常(连续性管理) | 根据SLA定义的可用性目标,计划可用性并报告可用性
| | 保证可用性应对措施有最佳的性价比
| | 分析重大事件的生命周期,从而减少事件的持续时间
| 从根本原因上消除事件的产生(问题管理) 对事件采取一个系统化、规范化的处理方式(事件管理) | 得到业务影响度分析,确定业务部门对其的可用性需求
| |
可用性管理围绕 IT 架构可用性的设计、实现、衡量与管理等环节展开,旨在确保针对可用性提出的业务需求得到连续满足。需要特别指出的是: ITSS团购 n 务必将可用性管理应用到所有新增 IT 服务和已经创建并具备服务级别需求(SLR)或服务级别协议(SLA)的 IT 服务 n 可用性管理同“业务连续性管理”无关,并且不负责在重大灾难后恢复业务流程,这些职能主要由“服务连续性管理流程” 担当。当然,服务连续性管理流程输出业务影响度分析给可用性管理流程作为重要输入。
3. 基本概念 可用性管理流程是通过计划、监控、管理以及提高IT服务的能力,来改善服务的可用性,从而保证服务级别协议(SLA)中定义的目标得以实现。 该定义中,几个关键的词汇解释如下: n “计划”:指的是对可用性需求的确认及应对措施制定动作。包括有:对业务需求及关键业务的分析、总结可用性需求,费用及影响的评估、具体应对措施的提出等。 ITSS工具 n “管理及提高”:这是一个长期的动作,主要用来分析现在可用性管理中的漏洞、风险、单点故障,来制定出针对性的可用性改进计划,实现IT服务的可持续性提高。 n “监控”:这是一个日常维护的动作,主要从IT部件及业务两个方面对可用性进行监控,收集相关的数据,然后进行趋势分析及生成相关的报表,从而为决策提供信息。 n “能力”:指的是用以支持IT服务的一种特性,可以用以下的词汇用来描述: 72. “运行时间(Uptime)”:用来描述可以正常使用服务的一个词汇,通常以小时为单位,例如24×7或5×8等。通常而言,也包括正常维护或计划内宕机所造成的服务停止时间。 73. “宕机时间(Downtime)”:服务不可用的总时间,包括计划内宕机时间及计划外宕机时间两种。 74. “服务的中断(Outage)”:由网络、主机、应用等方面故障所引起的服务停止的情况。 75. “单点故障(SPOF,Single Point of Failure)”:一个模块故障会引起服务的停止的情况。 76. “容错性(Fault Tolerant)”:指的是具有多个模块,以防止其中一个模块故障而使服务停止的能力。主要用来消除单点故障。 n “可用性(Availability)”:通常用百分比的形式来描述,等于用户可以访问IT服务的时间除以总时间。 另外可用性也可以用以下的方法来描述: ITSS认证 77. “可靠性(Reliability)”:发生服务停止事件的频率。 78. “可维护性(Maintainability)”:描述对IT组件进行错误修复的能力。 79. “服务的弹性(Resilience)”:描述IT组件为了消除SPOF的冗余程度。例如:在一个容错系统中,当一条线路发生故障后,可以切换到另外一条线路中使用,因此,必须保证切换过去之后的线路有足够的带宽,它必须有一定的冗余,这就是弹性(Resilience)。 80. “可服务性(Serviceability)”:在外包合同或OLA中,用以描述管理IT组件的能力。 n “SLA中定义的目标”:会针对IT服务的可用性,在SLA中规定一些目标,而可用性管理必须保证这些目标得以实现。 通常会包括: ITSS考试 81. “平均修复时间(MTTR,Mean Time To Repair)”:用来衡量可维护性的一个指标,指的是从故障发现到服务修复的平均时间。是以多少秒来衡量。 82. “平均无故障时间(MTBF,Mean Time Between Failure)”:用来衡量可用性的一个指标,指的是服务正常运行的平均时间。是以多少秒来衡量。 83. “年度故障率(AFR,Annual Failure Rate)”:用来衡量可靠性的一个指标,指的是每年发生错误的次数。以百分比来衡量,200%指的是每年发生两次错误,而50%指的是两年发生一次错误。 ISO20000培训
4. 流程的主要活动 n 根据新规划的IT服务或已有服务改进功能的设计说明确定可用性需求 n 分析服务的关键功能、组件及其相互的关系,基于IT架构提出可用性设计建议 n 从业务连续性流程获得服务的业务影响度分析,作为可用性设计的重要输入 n 定义可用性、可靠性、可维护性的目标、衡量指标,并确保与服务级别协议达成一致 n 对IT组件进行可用性、可靠性、可维护性等的监控和趋势分析 n 回顾IT服务和组件的可用性,并识别不可接受的可用性情况 n 针对不可接受的可用性进行分析,找出原因并制定改进行动 n 制定并维护可用性改进计划
5. 对组织的效益 主要包括如下几个方面: n 降低风险 签订SLA之前,需要得到可用性管理流程的支持,而可用性管理流程会对服务的系统框架进行详细的分析,找出其中的薄弱点,这可以降低违反SLA的风险。 同时,良好的可用性管理可以降低服务受影响的风险。 ITSS体系 n 降低成本 通过定义合理的可用性目标,可以减少应对措施实施的成本。 同时,有效的可用性管理可对突发事件管理提供支持,从而降低支持、维护的费用。 n 改善应用的敏捷性 当业务部门的可用性要求改变时,可用性管理可以迅速的响应,来制定对应的可用性需求,来最大化的满足业务的需要。 n 改善应用的质量 会进行重大突发事件的分析、服务中断分析等等,这可以明显的提高服务的可用性。
本帖关键字:ITSS ISO20000 |