返回ITIL 4 Foundation中文翻译目录,点击
5.2.8 问题管理
关键词:问题管理实践的目的是通过识别事件的实际和潜在原因,以及管理变通方法和已知错误来降低事件的可能性和影响。
定义:
●问题:一个或多个事件的原因或潜在原因。
●已知错误:已分析但尚未解决的问题。
每项服务都有可能导致事件的错误,缺陷或漏洞。它们可能包括服务管理的四个维度中的任何一个中的错误。在服务上线之前,会识别并解决许多错误。但是,有些仍然未被识别或未解决,并且可能对实时服务构成风险。在 ITIL 中,这些错误称为问题,它们由问题管理实践解决。
问题与事故有关,但应区分,因为它们以不同方式管理:
●事件会对用户或业务流程产生影响,必须进行解决才能进行正常的业务活动。
●问题是事故的原因。他们需要调查和分析,以确定原因,制定解决方案,并建议长期解决方案。这减少了未来事件的数量和影响。
问题管理涉及三个不同的阶段,如图 5.23 所示。
问题识别活动识别并记录问题。这些包括:
●执行事件记录的趋势分析
●用户,服务台和技术支持人员检测重复和重复出现的问题
●在重大事件管理期间,确定事件可能再次发生的风险
●分析从供应商和合作伙伴收到的信息
●分析从内部软件开发人员,测试团队和项目团队收到的信息。
其他信息来源也可能导致发现问题。
问题控制活动包括问题分析,记录变通方法和已知错误。
问题根据其构成的风险优先进行分析,并根据其潜在影响和概率作为风险进行管理。分析每个问题并不重要;在最优先的问题上取得重大进展比调查组织所知道的每个小问题更有价值。
事件通常有许多相互关联的原因,它们之间的关系可能很复杂。问题控制应考虑所有促成因素,包括导致事故持续时间和影响的原因,以及导致事故发生的原因。从服务管理的所有四个维度的角度分析问题非常重要。例如,由不准确的文档引起的事件可能不仅需要对文档进行更正,还需要对支持人员,供应商和用户进行培训和了解。
当无法快速解决问题时,基于对问题的理解,查找并记录未来事件的变通方法通常很有用。问题记录中记录了变通方法。这可以在任何阶段完成;它不需要等待分析完成。如果在问题控制的早期记录了变通方法,则应在问题分析完成后对其进行检查和改进。
定义:变通方案 workaround
一种解决方案,可以减少或消除尚未提供完整分辨率的事件或问题的影响。 一些变通方法可以减少事故发生的可能性。
当解决问题不可行或具有成本效益时,有效的事件解决方案可以成为处理某些问题的永久方法。在这种情况下,问题仍然存在于已知错误状态中,如果发生相关事件,则会应用记录的解决方法。每个记录在案的解决方法都应该包含对其适用的症状的明确定义。在某些情况下,变通方法应用程序可以自动化。
对于其他问题,应找到修复错误的方法。这是错误控制的一部分。错误控制活动管理已知错误,这是初始分析已完成的问题;它通常意味着已经识别出有缺陷的部件。错误控制还包括识别可能导致实施解决方案的变更请求的潜在永久解决方案,但前提是在成本,风险和收益方面可以证明这一点。
错误控制会定期重新评估尚未解决的已知错误的状态,包括对客户的总体影响,永久解决方案的可用性和成本以及解决方法的有效性。每次使用变通方法时都应评估变通方法的有效性,因为可以根据评估改进变通方法。 问题管理活动与事件管理密切相关。这些实践需要设计为在价值链中协同工作。这两种做法的活动可以相互补充(例如,确定事件的原因是可能导致事件解决的问题管理活动),但它们也可能发生冲突(例如,调查事故原因可能会延误行动需要恢复服务)。
问题管理,风险管理,变更控制,知识管理和持续改进之间的接口示例如下:
●可以将问题管理活动组织为风险管理的特定案例:它们旨在识别,评估和控制服务管理的四个方面中的任何一个方面的风险。采用风险管理工具和技术进行问题管理是很有用的。
●解决问题的实施通常不在问题管理的范围内。问题管理通常通过变更控制启动解决方案,并参与实施后审查;但是,批准和实施变更超出了问题管理实践的范围。
●问题管理实践的输出包括有关变通方法和已知错误的信息和文档。此外,问题管理可以利用知识管理系统中的信息来调查,诊断和解决问题。
●问题管理活动可以识别服务管理的所有四个方面的改进机会。在某些情况下,解决方案可以被视为改进机会,因此它们包含在持续改进注册表(CIR)中,并且持续改进技术用于确定优先级和管理它们,有时作为产品积压的一部分。
许多问题管理活动依赖于员工的知识和经验,而不是遵循详细的程序。负责诊断问题的人通常需要能够理解复杂的系统,并思考可能发生的不同故障。发展这种分析和创造能力的组合需要指导和时间,以及适当的培训。
ITIL 的故事:Axle 的问题管理
Henri:Axle 参与了我们所有汽车制造商的反馈计划。我们与他们共享维护和维修数据,以帮助他们不断改进服务。作为回报,他们提醒我们车辆中存在任何潜在问题。
Radhika:最近,我们警告我们的船队存在潜在问题。一家汽车制造商召回了我们车队中的一款受欢迎的车型,以修复安全气囊激活系统中发现的错误。
苏:幸运的是,在 Axle 遇到任何事件之前就发现了它,但仍有可能发生问题,这意味着这是我们必须处理的问题。
Marco:我们对其他系统和服务采用类似的做法,包括我们使用的所有 IT 组件。
Radhika:Axle 的事件管理实践是我们系统中最重要的信息来源之一。我们遇到的任何重大事件之后都会调查可能的原因。有时这会导致我们找到并修复系统中的错误,并且我们经常会找到减少 Axle 未来事件数量的方法。
问题管理通常侧重于操作环境中的错误。图 5.24 显示了问题管理对服务价值链的贡献,实践主要应用于改进,交付和支持价值链活动:
●改进:是问题管理的主要关注领域。有效的问题管理提供了减少事故数量和无法预防的事件影响所需的理解。
●驱动:客户和用户可以看到对服务产生重大影响的问题。在某些情况下,客户可能希望参与问题优先级排序,并且应该传达管理问题的状态和计划。通常通过服务门户向用户呈现变通方法。
●设计和过渡:问题管理提供有助于改进测试和知识转移的信息。
●获取/构建:可以通过问题管理识别产品缺陷;然后将这些作为此价值链活动的一部分进行管理。
●交付和支持:问题管理通过防止事件重复和支持及时解决事件来做出重大贡献。
|