一个快速修复故障的套路（SRE）

slbenben

快速修复故障的SRE（Site Reliability Engineering，网站可靠性工程）套路的实践报告，由国内最大的数字化时代IT服务管理交流社区ITIL先锋论坛提供。报告通过具体案例分析，介绍了快速修复故障的基本套路、故障规律的掌握、套路成效的评估，以及如何通过技术手段固化处理经验，提升故障修复效率。

案例分析：

首先通过三个故障案例，展示了故障发生时的背景、描述、处理方法和结果。案例包括数据库主从不同步、机房冷机故障、业务产品和管控系统容灾部署故障等，这些案例突出了故障处理中的复杂性和挑战性，如系统复杂性、涉及人员众多、修复过程难等。

快速修复故障的基本套路：

快速修复故障的基本套路，包括设计、预案、应急三个方面。具体措施包括：

- 系统可修复性设计：系统应设计为可被修复，包括有效的修复方案和工具，有力的保障能力，如资源、人与流程。

- 可修复的架构设计：设计便于修复的软硬件架构，系统是可修复的，能自愈的尽量容灾自愈，不能自愈必须暴露接口。

- 架构原则：标准化、无状态的软件架构，多副本冗余设计，被隔离迁移、调度切换的能力。

- 预案功能设计：包括预案管理、基本任务管理、预案编排、预案执行、预案回退、预案统计分析等。

故障规律的掌握：

深入故障规律的重要性，提出了故障修复的原则，包括研究规律、有效应对、故障修复是工程、故障修复靠综合能力等。故障分类及原因分类包括灾难型、容量负载型、变更型等，每种类型都有相应的应对方法和案例。

套路成效的评估：

如何评估套路的成效，包括度量结果和故障修复能力的度量。具体指标包括故障MTTR（Mean Time To Repair，平均修复时间）、过程能力、单个故障的度量、周期性度量等。通过这些指标，可以评估故障修复的效率和预案的有效性。

快速修复故障的核心要点，强调故障修复的工程化设计，预案平台不是单个部门的事情，而是研发、架构部门共同的目标。运维研发必须共同建设，支撑保障能力、管控系统的能力不能被忽视。研究故障规律，针对性设计故障修复预案，持续度量，看到进步，更重要的是看到短板和改进方向。以快速修复为目标，整合系统相关的技术栈各层能力，整合从运维、产研、值班、客服等团队协同，尽快速度修复故障。

一个快速修复故障的套路（SRE）的报告为IT运维管理提供了宝贵的实践经验，展示了如何通过SRE套路快速修复故障，提升系统的可靠性和稳定性，实现运维、产研、架构等部门的协同合作，推动故障修复的工程化和自动化。

IT运维管理：ITIL先锋论坛—一个快速修复故障的套路（SRE）.pdf (3.31 MB, 下载次数: 23)

上一篇：某游戏公司SRE指标设计与效果分析
下一篇：某大型国企IT运维管理体系规划实践

一个快速修复故障的套路（SRE）

评论

浏览过的版块