本文是关于某游戏公司SRE(Site Reliability Engineering,网站可靠性工程)指标设计与效果分析的实践报告。报告从腾讯游戏设计可观测指标的痛点出发,探讨了如何通过SRE视角设计游戏可观测指标,并提出了让指标实践更进一步的方法。最后,报告总结了SRE视角下的游戏指标实践模式,并展望了未来的发展方向。
腾讯游戏设计可观测指标的痛点:
腾讯游戏业务复杂,包括纯自研、纯代理、合作研发和委托研发等多种模式。游戏开发厂商众多,开发语言多样化,游戏类型丰富,架构差异大,且不同游戏间相互独立,业务场景差异大。这导致指标监控系统繁杂,面临海量数据处理、环境迥异、调用关系链复杂、使用成本高昂、故障定位难、维护效率低等挑战。
如何通过SRE视角设计游戏可观测指标:
SRE视角下,指标观测遵循“measure everything”原则,关注系统整体稳定性和可靠性,设计面向SLO(Service Level Objectives,服务等级目标)的指标体系。SRE提倡“左移”,即在初始设计阶段影响架构决策,确保从一开始就内置质量和可靠性。具体方法包括:
- 面向SLO服务等级的指标体系:运维关注业务整体稳定性指标,优先考虑贴近用户的指标,从上往下梳理黄金指标并持续优化。
- 面向云原生业务的指标体系:通过云原生技术和微服务改造,协助开发进行架构设计和改造,设计云原生业务的指标。
SRE视角下指标观测的具体实践:
- 问题参与角色输出简易方法:确定用户列表、功能列表、服务等级、功能对应的SLO、SLI列表、统计方法及指标类型等。
- 游戏业务按品类划分:不同游戏品类的功能侧重点不同,如FPS/MOBA类重单局,SLG/MMORPG/卡牌类重养成。
- 游戏关键监控SLI指标:涵盖黄金指标,如对局网络延迟、对局退出分析、重连率、掉线数等。
- 游戏业务的SLO服务等级的指标梳理:以玩家感受和功能设计为主要目标,从游戏玩家的关键旅程梳理SLI,覆盖游戏关键路径和核心场景。
- 游戏业务的SLO实践:通过SLO大盘和多业务手游/端游SLO大屏,统一数据、横向拉通、关联告警,降低MTTR(故障恢复时间)。
如何让指标实践更进一步:
- BKMonitor As Code:通过自动化方式提升可观测系统的部署效率,实现可观测标准范例跨业务可复制。
- 实现方案评估:对比自建Prometheus和Grafana的社区方案,提出BKMonitor As Code的优势,如配置简单、批量管理、版本控制等。
- 平台的开放化和插件化:蓝鲸监控落地游戏业务插件开发,如tbus监控插件、SLO稳定性指标获取插件、etcd监控插件等。
- SRE理念——工具开发和自动化:赋能运维,业务运维自定义快速实现各类组件开发,提高运维效率,降低开发和维护成本。
总结与展望:
- SRE视角下的游戏指标实践模式:主动发现服务和功能拆分后的调用关系监控,面向服务等级的SLO指标受到威胁时才需要人工介入,减少告警噪声,提高运维效率。
- 研运合作模式:引入GitOps和Everything As Code,将业务可观测纳入版本管理审计并进行持续部署,提升业务的研运效率。
- 数据关联且场景关联:引入监控的平台能力和服务场景联动,SLO作为业务稳定性的官方指标,用于提升业务稳定性的数据标准,提高问题定位效率。
- SRE建设中的思考:关注成本,实践SRE文化,用软件工程化的思维把游戏业务的工作场景工程化,向平台化靠拢,做到可衡量、可管理、可复制,并持续优化和创新。
本文为游戏公司的SRE指标设计与效果分析提供了宝贵的实践经验,展示了如何通过SRE视角设计可观测指标,提升运维效率,优化游戏业务的稳定性,实现研运合作新模式,推动游戏业务的数字化转型。