本部分将描述 SRE日常工作背后的指导思想——工作模式、行为方式,以及平时运维工作中关注的重点等。
本部分的第一章(第3章)是最重要的一章。这一章从最广泛的角度描述了SRE的日常工作,以及背后的指导思想。这一章从"风险"入手,描述了如何评估风险、管理风险,以及利用错误预算的手段来推进中立性的服务运维。
服务质量目标(SLO)是 SRE 的另外一个基本概念。运维行业经常会将一系列离散的概念都归结为服务质量协议(SLA),这样使得讨论变得很复杂。第4 章试图将 SLO与SLA区分开来,详细描述 SRE 是如何区分这两个术语的,同时针对应用程序性能指标的选择提供了一些建议。
消除琐事(toil)是SRE的一项重要工作,详情请参见第 5章。我们将琐事定义为无聊、重复性的运维工作,这些工作通常不具有长期价值,而且会随着服务规模的扩大而增长。
对Google 或者其他任何一个公司来说,监控系统都是运维生产环境必不可少的组件。如果没有针对服务的监控,就无从得知目前服务的状态,如果不知道服务的状态,就无从谈起维护服务的可靠性。第6章描述了监控的手段和目标、以及一些与具体实现无关的最佳实践。
第7章描述了Google SRE进行自动化工作的方法论。这一章同时讨论了SRE在自动化过程中的一些成功和失败的案例。
大部分公司不太重视发布工作。然而,在第8章中,我们可以看到,发布工作是整体系统稳定性的一个关键环节,因为大部分故障都是由于新的变更引起的。在这方面的投入也可以保障每次发布的顺利进行。
|