本文是关于基于事件管理的质量体系建设实践的报告,由平台业务中心的质量专家在GOPS全球运维大会2020深圳站上分享。报告从事件管理质量框架、事件管理从0到1的建设实践、事件管理上游质量控制、事件管理发展方向探索四个方面,详细介绍了事件管理在质量体系建设中的应用和实践。
事件管理质量框架: 报告首先介绍了事件管理面临的挑战,包括高事故率、处理时效低、缺乏管控、用户体验关注度不够等问题。为解决这些问题,提出了主站APP事件管理框架,涵盖事件感知、事件识别、事件分发、事件响应、事件跟进、事件复盘、事件改善、事件度量等环节。事件管理的核心能力包括标准、效率、流程、度量四个方面,旨在提升感知能力、标准完善、效率提升和管理运营。
事件管理从0到1的建设实践: 报告详细介绍了事件管理模型,包括西格玛质量管理平台、系统事件、事件响应、IT服务台、线上用户反馈、用户/业务方、系统监控等。事件管理方法论包括事件发生、事件解决、事件报备、事件登记、复盘、后续改进等环节。事件管理的发展路径分为三个阶段: 1. 阶段一:建立单一类型事件分级标准,建立事件管理基本流程,单一组织跟进事件全流程,管理粗放,数据维度少、度量指标简单、无工具平台。 2. 阶段二:包含多种事件类型,覆盖多种渠道事件来源,建立跨团队事件处理流程,数据维度丰富、度量指标全面、建设线上平台管理。 3. 阶段三:整合事件管理规范集,全流程标准化,建立覆盖各事业部和前中台虚拟组织,流程机制无缝对接,打造SaaS化事件管理平台,流程工具深度集成,持续提升效率和体验。
事件管理要素: - 标准:包括事件分级标准、事件定责及扣分标准、事件处置规范,为事件管理绩效考核提供标准。 - 事件级别:从P0(特大事故)到P6(一般问题),严重程度递增,包括问题和事故两类。 - 流程:涵盖事件响应、事件解决、事件报备(周知)、事件改善、事件复盘等环节。 - 度量:包括解决率%、关闭率%、逃逸率%、严重事件占比%、平均解决时效%等指标,衡量事件解决情况、整体完成度、测试团队整体测试质量、度量范围内事件质量、事件整体解决效率质量情况。
事件管理-西格玛质量平台: 报告介绍了事件管理的系统平台,包括事件域、事件字段可选、事件标签、自定义报表、工作流集成邮件、咚咚,系统自助推动事件填报、解决、改善完成。SAAS化管理提供了所有配置字段的数据筛选能力,多维度展示报表。
事件管理-典型问题: - 感知:涵盖线上用户反馈、IT服务台、内部反馈、VIP反馈、监控发现、舆情(热点)反馈等。 - 改善:包括测试改进、监控优化、流程改进、系统优化等,改善分布为12%、14%、34%、40%。 - 组织:涉及中台、子集团、部门A、部门B、部门C等,质量接口人负责用户研究和舆情团队。 - 定责:包括唯一责任方(单方)、主次责任方(双方)、责任共同承担方(多方),事件定责由QA根据事件复盘情况认定,如有异议且沟通后没有达成共识,提交技术委员会确定。
事件管理的价值: 事件管理的价值在于记录各类事件,沉淀经验,形成事件知识库;为业务团队规范化进行事件处置提供系统流程;从事件结果倒推上游流水线合规质量管理;通过长期的事件管控,提升团队内部对造成线上问题风险的重视度;事件管理同绩效挂钩,有效提升责任心。
事件管理上游质量控制: 报告探讨了事件数据反应的问题,包括变更导致问题、评估问题、代码逻辑问题等。事件管理上游质量控制涉及需求、开发、测试、发布、部署、验收等环节,包括变更管理、评估管理、代码评审等。具体措施包括变更计划的评估、变更测试验证、变更授权、变更周知、变更执行/灰度、变更故障处理、变更记录等。
事件管理发展方向探索: 报告最后提出了事件管理后续发展方向的探索,包括管理自治、感知智能化、举一反三能力。管理自治基于事件管理方法论、标准、流程、度量、工具平台赋能内外部团队,形成团队内部自驱动的事件管理自治。感知智能化包括监控智能化、反馈智能化、舆情热点预测。举一反三能力通过事件改善专家评审机制,深入分析问题相似场景,提炼共性逻辑,提出更有预防、更大价值的事件优化方案。
本文为基于事件管理的质量体系建设提供了宝贵的实践经验,展示了如何通过事件管理提升运维质量,实现从0到1的建设实践,控制上游质量,探索发展方向,为其他企业提供了可借鉴的实践路径。
|