学习资料: ITIL培训基地专家讲堂直播 300期视频回放
通过问题管理,可以消除引起事件的深层次根源以防止事件的再次发生。
问题管理(Problem Management)调查基础设施和所有可用信息,包括事件数据库,来确定引起事件发生的真正的潜在原因以及提供的服务中可能存在的故障。这些调查是必要的,因为基础设施复杂而且分散,而且事件间的关联不是很明显。
比如,有几种错误可能由一个问题引起,而同一个错误也可能与若干个问题相关。因此,首先我们必须确定引起事件的原因,一旦确定了根本的原因,同时产生了可接受的应急措施,就可把问题当成一个已知错误来处理。
因此,一旦找到了永久解决这些根本原因的方法,我们就可以发出一个变更请求(RFC)来消除这些已知错误。而在此之后,问题管理会继续跟踪和监控这些基础设施中的已知错误。需要记录所有已确定的错误,他们的症状以及可用的解决方案等相关信息。
事件管理通过提供应急措施和对事件的临时修复来支持事件管理的工作,但不负责解决事件。事件管理的目标是采取任何可能的方法,包括一个应急措施来快速地解决事件;而问题管理则注重确定并消除引起事件和问题的深层原因。在创建事件记录的同时也要创建问题记录。因此,对一些仍处于待解决状态的事件来说,对相关问题的调查可解决这些事件。
问题管理的目标
问题管理的目标是消除引起事件的深层次根源以防止事件再次发生,它包括主动性问题管理和被动性问题管理两类活动。被动性问题管理(Reactive Problem Management)的目标是找出导致以前的事件发生的根本原因,以及提出解决措施或纠正建议;而主动性问题管理(Proactive Problem Management)的目标是通过找出基础设施中的薄弱环节来阻止事件的再次发生,以及提出消除这些薄弱环节的建议。
问题管理流程可以:
● 识别IT基础设施的故障,记录故障,并对这些故障进行跟踪直至其得到解决;
● 记录故障的症状以及解决故障的临时性或永久性解决方案;
● 提交变更请求以修复基础设施;
● 防止本可避免的事件发生;
● 获得有关IT基础设施质量以及管理基础设施流程的质量方面的报告。
实施问题管理流程对实施组织带来的好处是,通过它可以极大地减少事件的数量和IT部门的工作量来提高服务质量,具体表现在:
● 提高IT服务质量和管理水平——因为基础设施中的故障得到记录和(或)消除;
● 提高用户的效率——因为提高了服务质量;
● 提高支持人员的效率——因为事件的解决方案已被记录下来,事件管理人员可更加快速有效地解决事件;
● 提升IT服务的声誉——因为服务的稳定性提高之后,客户在开展新的业务时会更加信赖IT部门;
● 加强管理,增加操作知识,提高学习能力——问题管理保存的历史信息可用于确定事件或问题发展的趋势,因此可阻止发生新的可避免事件。历史信息也有助于在准备变更请求(RFC)时的调查诊断工作。
● 改善对事件的记录水平——问题管理为事件的记录和分类引入标准,以有效地找出问题及其症状。它同时也可提高事件的报告水平。
● 更高的一线支持解决率—— 由于问题管理将事件和问题的解决方案及应急措施保存在知识库中,所以一线支持人员解决事件的可能性更大。
问题管理活动
问题管理的输入有:有关事件的详细信息,包括应急措施;来自配置管理数据库(CMDB)的配置信息;来自供应商的关于基础设施中使用其产品的信息。这些信息包括技术细节和这些产品本身存在的已知错误;服务目录和服务级别协议(SLA);有关基础设施及其运行状况方面的信息,如能力记录、性能指标和服务级别报告等。
问题管理的主要活动如下。
● 问题控制(Problem Control):定义、调查以及诊断;问题控制注重将问题转化成已知错误。
● 错误控制(Error Control):监控并控制已知错误,提出变更请求(RFC);错误控制注重于通过变更管理流程在结构上解决已知错误。
● 主动性问题管理:通过改进基础设施以及提出变更请求来阻止可避免事件的发生。
● 提供信息:对结果和重要问题的报告。
问题管理的输出包括:
● 一个已知错误数据库,它实际上是问题数据库中的一部分;
● 变更请求(RFC);
● 最新的问题记录(主要更新与已知错误、解决方案和应急措施相关的信息);
● 一旦消除了事件发生的根源,就可以停止问题记录;
● 管理信息。
问题管理流程与以下流程密切相关,如图2所示。
1.事件管理。事件管理对问题管理来说是一个重要的信息提供者。有效的事件记录对成功地进行问题管理来说非常重要,因为这些信息是用于发现问题的。
问题管理支持事件管理流程的工作。问题管理对问题进行分析,直到找到问题的解决方案;同时问题管理还能为事件管理提供应急措施(通常是在对问题进行研究时找到)来对事件进行处理。一旦确定了问题的原因并且定义了一个已知错误,那么提供一个临时修复以阻止事件的再次发生并降低事件的影响。理想的情况下,问题管理还可提供一个变更请求(RFC),这会使问题得到最终的解决。
2.变更管理。变更管理负责控制执行变更,包括由问题管理为消除问题而发出的变更请求(RFC)。变更管理负责预测所需变更产生的影响,同时估算在对其进行计划、协调、评价时所需的资源。它还通知问题管理了解关于纠错性变更的进展和完成情况。这些纠正性变更的评价需要与问题管理进行磋商。这样能产生一个实施后评审,如果变更成功进行,此后所有相关的事件和问题记录(已知错误)都可以终止了。
3.配置管理。配置管理提供关于基础设施、结构图(Blueprints)、硬件和软件配置及服务等组件的重要信息。配置管理流程还描述这些组件之间的关系,如“与……相关联”、“使用……”、“组成……的一部分”等。这些关系对问题管理的调查工作至关重要,因为它们定义了整个IT基础设施之间的相互关系。
4.可用性管理。可用性管理的目标是规划服务的可用性级别、确保这些可用性级别得到实现,同时将有关可用性方面的信息提供给问题管理流程。问题管理流程通过找出服务无效的原因和补救方法来支持可用性管理流程的工作。可用性管理负责基础设施的设计和规划基础设施的架构,通过优化可用性的设计、规划和监控来防止问题和事件的发生。问题管理也经常在分析导致服务出现故障的原因(服务故障分析)时与可用性管理流程一起工作。
5.能力管理。能力管理优化对IT资源的使用。能力管理为问题管理提供用于定义问题的重要信息,而问题管理找出与能力有关的问题,查明原因并进行纠正,以此来支持能力管理流程的工作。
6.服务级别管理。服务级别管理包括就实施IT服务时的服务质量问题进行协商和谈判。服务级别管理为问题管理提供用于定义问题的信息,而问题管理流程应当遵守、支持规定的服务级别。问题管理与财务管理和IT服务持续性管理之间也有类似的关系。
问题控制
问题管理流程的第一项活动是问题控制。问题控制负责找出问题并调查其根源,其目标是通过确定问题根源并采取应急措施来把问题转化成已知错误。图3描述了问题控制活动。
原则上讲,任何一个由未知原因引起的事件都与某个问题有关。然而,对问题的确认和记录只有当事件重复发生或有可能再次发生,或者发生了重大事件时才有意义。
“确认问题”这一活动通常由问题分析员完成,但是其他人员,如能力管理人员也可帮助对问题进行确认。
问题处理的细节与事件处理类似,但是在确定问题时没有必要包含用户相关信息。不过,必须确定与问题有关的事件,并找出它们与问题之间的关系。
那么如何确认一个问题呢?下面是一些例子:
● 对某一事件进行分析表明该事件是再次发生,而且有大量发生并且加重的趋势。
● 对基础设施进行分析可以找出可能会发生事件的薄弱环节(也可由可用性管理和能力管理来进行分析)。
● 一个严重事件发生后应给予永久性的解决,这样是为了避免再次发生这样的事件。
● 服务级别受到威胁(能力、性能、成本等);
● 记录下来的事件不能与一个现有的问题或已知错误进行关联。
趋势分析(Trend Analysis)能够发现基础设施中一些需要进一步关注的环节。这些关注可从成本收益的角度进行分析,比如,通过确定基础设施中需要更多支持的地方以及这些地方与所提供的服务之间的关系等。
(此专栏文章刊载于清华大学出版社出版的《IT服务管理——基于ITIL的全球最佳实践》)
声明:凡注明CIO时代网(www.ciotimes.com)之作品(文字、图片、图表),转载请务必注明出处为CIO时代网(www.ciotimes.com),违者本网将依法追究责任。
|