粗略翻译一下目录: 第一部分:介绍 - 第 1 章:介绍
- 第 2 章:Google 的生产环境
第二部分:原则 - 第 3 章:拥抱风险
- 第 4 章:SLO
- 第 5 章:消除杂活
- 第 6 章:监控分布式系统
- 第 7 章:Google 的自动化
- 第 8 章:发布新版本
- 第 9 章:简单性
第三部分:实践 - 第 10 章:报警
- 第 11 章:值班
- 第 12 章:高效的查找故障根源
- 第 13 章:应急响应
- 第 14 章:管理突发情况
- 第 15 章:验尸报告:从失败中学习
- 第 16 章:故障跟踪
- 第 17 章:可靠性测试
- 第 18 章:SRE 与软件工程
- 第 19 章:入口负载均衡
- 第 20 章:数据中心内的负载均衡
- 第 21 章:系统过载
- 第 22 章:级联故障
- 第 23 章:管理关键状态:分布式一致性
- 第 24 章:分布式的周期性任务
- 第 25 章:数据处理流水线
- 第 26 章:数据一致性
- 第 27 章:产品上线
第四部分:管理 - 第 28 章:Accelerating SREs to On-Call and Beyond
- 第 29 章:应对打扰
- 第 30 章:Embedding an SRE to Recover from Operational Overload
- 第 31 章:SRE 团队的沟通与协作
- 第 32 章:The Evolving SRE Engagement Model
第五部分:结论 - 第 33 章:其他公司的经验教训
- 第 34 章:结论
|