二、关键术语与概念
1. 事件定义
事件是服务的非计划中断或服务质量的降低。
2. 事件模型
事件模型是管理特定类型事件的可重复方法。当系统和服务表现出包含所谓典型事件的运营模式时,定义事件模型有助于优化处理和解决重复或类似事件。
3. 重大事件
重大事件是具有重大业务影响、需要立即协调解决的事件。重大事件通常与更高级别的复杂性相关,可能需要特殊的管理方法,包括:
- 区分重大事件的明确标准
- 专门的协调人(如重大事件管理员)
- 专门的临时团队
- 特殊的调查方法(如蜂拥模式)
- 约定的沟通模型
4. 变通方法
变通方法是一种减轻或消除事件或问题影响的解决方案,但尚无完整解决方案。虽然变通方法可以迅速恢复服务质量,但可能增加技术债务并导致未来出现新事件。
三、实践成功因素
1. 及早发现事件
这一成功因素包括:
- 自动化事件检测
- 提高初始收集数据的质量
- 在影响用户前解决某些事件
- 降低与事件管理相关的成本
2. 快速高效地解决事件
基于环境复杂性的不同情况:
- 对于明确情况(常见事件),预定义的解决程序效果最佳
- 对于复杂情况,可以将事件路由至专家组进行诊断和解决
- 对于高度复杂情况,可采用集体方法(如蜂拥技术)
事件优先级取决于:
3. 持续改进事件管理
通过定期审查事件记录来提高事件管理实践的有效性和效率。这提供了分析利益相关者满意度的机会,是实践和组织产品与服务持续改进的关键。
四、流程和活动
事件管理活动形成两个过程:
1. 事件处理和解决过程
包括以下活动:
- 事件检测 - 通过监控工具或用户报告识别事件
- 事件登记 - 创建事件记录并添加可用数据
- 事件分类 - 确定事件影响、确定负责团队并链接到其他事件
- 事件诊断 - 找出根本原因并确定解决方案
- 事件解决 - 应用解决方案恢复服务
- 事件关闭 - 完成必要的工作和更新记录
- 2. 定期事件审查过程
活动包括:
- 审查事件记录和分析 - 识别改进机会
- 事件模型改进启动 - 注册改进计划
- 事件模型更新沟通 - 向相关利益相关者传达更新
事件管理在服务价值流中发挥核心作用,但通常需要整合多个实践以完成事件解决的价值流。
五、组织和人员
1. 事件管理中的角色
主要角色包括:
- 事件管理员 - 负责协调组织中的事件处理,监控和审查工作,确保相关意识
- 重大事件管理员 - 专门处理重大事件,通常拥有更广泛的权限
- 其他相关角色 - 技术专家、服务台坐席等
2. 团队结构
团队结构会影响事件管理实践的执行方式:
- 传统层级结构与扁平结构的比较
- 集中会诊 (swar**) 等协作方法的使用
- 集体责任、不责怪文化和持续学习的重要性
六、信息和技术
1. 信息交换
事件管理的有效性基于所使用信息的质量,包括:
- 客户和用户信息
- 服务架构和设计信息
- 合作伙伴和供应商信息
- 政策和要求
事件详情是最重要的信息,通常包括:事件来源、受影响服务、症状、位置、影响范围等。
2. 自动化和工具
支持事件管理的自动化解决方案包括:
- 监控和事态管理工具 - 用于事件检测
- 工作流管理和协作工具 - 管理事件生命周期
- 知识管理工具 - 用于事件分类和已知解决方案识别
- 服务配置管理工具 - 用于事件分类和诊断
- 远程管理工具 - 用于事件诊断和解决
3. 自动化建议:
- 自动化价值流,而不仅仅是单个活动
- 为用户和事件发起的事件设计不同工作流
- 保持工作流和业务规则简单
- 重视从一开始就进行的测量和报告
- 设计支持跨团队协作的工具
七、合作伙伴和供应商
合作伙伴和供应商可以以多种方式支持事件管理:
- 执行事件管理活动 - 第三方通常参与事件诊断和解决
- 提供软件工具 - 用于自动化事件处理的集成工具
- 咨询和建议 - 帮助建立和发展实践,采用方法和技术
有效的事件模型应定义第三方如何参与事件解决,以及如何确保有效协作。标准接口可以帮助供应商融入组织的生态系统。
八、实践成功建议
成功实施事件管理的关键建议包括:
- 从服务消费者角度看待事件
- 收集并重用数据,开发事件模型
- 管理和改进整个事件解决价值流
- 循序渐进发展实践,避免过度复杂化
- 根据复杂性调整方法(如左移和蜂拥技术)
- 展示业务价值,提供报告和仪表板
这些建议与ITIL指导原则相一致:关注价值、从现状出发、迭代进步并接收反馈、协作并提高可见性、整体思考和工作、保持简单实用、优化和自动化。
ITIL 4大师级课程官方授权讲师长河老师原创,末经许可,不得转载