本文是关于某互联网公司SRE(Site Reliability Engineering,网站可靠性工程)组织建设的实践报告,由国内最大的数字化时代IT服务管理交流社区ITIL先锋论坛提供。报告从大型组织的SRE规划、业务事业部的执行、SRE的边界三个方面,详细介绍了该公司在SRE组织建设方面的经验和实践。
大型组织的SRE规划: 报告首先介绍了Google的SRE模型,强调SRE团队通过软件工程师来改进软件系统,以自动化替代传统模型中的人工操作。SRE团队的构成包括50%-60%的标准软件工程师和40%-50%具备其他技术能力的工程师。SRE团队的特点包括对重复性、手工性操作的天然反感,以及快速开发软件系统以替代手工操作的技术能力。SRE团队与产品研发部门在学术和工作背景上非常相似,本质上是用软件工程的方法和思维完成传统由系统管理团队手动完成的任务。
业务事业部的执行: 报告提出了SRE平台工程和SRE技术服务的概念,强调了工程化思维和参考理论资料的重要性。具体措施包括: - SRE平台工程:涉及定制化桌面、开发者中心、开发框架、企业服务总线、API网关、单点登录、低代码平台等。 - SRE技术服务:包括用户管理、配置平台、作业平台、容器管理平台、计算平台、AIOps平台、项目管理等。 - 业务生命周期:从需求点出发,参考理论资料,结合工程化思维,应对研发需求改变、云原生、游戏研发模式变化、DevOps工程、GitOps、CI/CD、微服务占比增高、全球多地协同研发、制作管线工程、业务全球化、多国多地区版本发布、微服务和容器化、自动化工程、ITIL的AI融合、长尾业务、可观测工程、稳定性、容量工程、自动评估和成本控制、可靠性工程、MTBF/MTTR、混沌工程、AIOps工程等。
SRE的边界: 报告探讨了SRE的边界和前沿试错,强调了SRE在研发可用性建设中的重要性。具体措施包括: - SRE驱动的研发工业化改造:构建可用性提升的preBuild方案细节,从事级中可从都到,只费乱窄和高控限用谢行绝不的,要线升生产环境约除空性能婴质。 - SRE驱动的云原生改造:涉及ClusterAutoscaler、Kubernetes、AWS、Meia fss、ClusterManager、LgsEtaM等资源池试点转型团队的阶段性进展。 - SRE在游戏中的指标设计与实践:CA扩展基础模型,研发运维关注的云原生业务的指标,包括ClusterAutoscaler、Kubemetes、AWS等。
实施效果: 报告展示了实施SRE组织建设的成效,包括: - 团队能力提升:500+团队成员,10+业务支撑转变为多工程并行,44+云原生改造业务,23%月优化运营成本,8+人均业务数,60+人均效能提升,400W可观测能力项,代码即运维能力,SLI/SLO。 - 管理模式创新:降本、复用人力资源,改变固定业务运维模式为跨业务运维模式;长尾业务平台化管理,实现多人互备,多人Oncall的模式;增效、业务支撑转变为多工程并行,提升支撑效率;工程化运作模式,强调工作长期价值和复用价值,提升多业务服务效率。 - 人才培养:建立SRE人才梯队培养模式,定义各专业职级与必修的工程场景对照;OnCall互备可以降低工作压力,跨游戏业务服务可以降低工作枯燥感。
本文为互联网公司的SRE组织建设提供了宝贵的实践经验,展示了如何通过SRE平台工程和SRE技术服务,提升团队能力,创新管理模式,培养SRE人才,实现降本增效。报告强调了SRE在研发可用性建设中的重要性,以及在云原生改造中的关键作用,为其他企业提供了可借鉴的实践路径。
|