本文是关于AIOps在运维团队实施的实践报告,由腾讯游戏的AIOps技术负责人在GOPS全球运维大会2020·深圳站分享。报告从腾讯游戏DataOps和AIOps的发展背景、日常工作中的实际案例介绍、AIOps在运维日常工作中的服务模式三个方面,详细介绍了腾讯游戏在AIOps领域的实践和经验。
腾讯游戏DataOps和AIOps的发展背景: 腾讯游戏的技术运营团队成立于2003年,随着游戏业务的发展,经历了平台产品化、D/O分离、成立运营开发团队、基于PaaS模式的运维开发转型等多个阶段。2015年,团队开始探索DataOps和AIOps,2017年行业影响力初具规模,2019年团队规模达到400+人。DataOps和AIOps的发展背景包括技术运营的演变、团队规模的扩大和行业影响力的提升。
日常工作中的实际案例介绍: 报告详细介绍了AIOps在腾讯游戏运维日常工作中的实际应用案例,包括助力游戏地图设计、化解游戏运营危机事件、辅助开发提升用户体验、提升运维工作效能、改变运维监控工作方式、指导运维发现异常日志等。 1. 助力游戏地图设计: - 通过坐标映射和线性回归算法,将场景坐标系和像素坐标系进行映射,优化游戏地图设计。 - 数据flow包括数据采集、处理和分析,算法模型应用包括线性回归模型,游戏策划使用路径包括数据可视化和优化建议。 - 优化案例展示了楼梯侧方位置的设计优化,提升了玩家体验。 2. 化解游戏运营危机事件: - 针对**恶意信息猖獗的问题,通过数据量大、检测速度慢、语法变种多、扫描流程繁琐等挑战,采用屏蔽词表、字音库、字形库、过滤器、模糊筛选、AC自动机等技术,提高检测效率。 - 优化前后的扫描效率对比显示,拼音扫描模式和标准扫描模式的扫描速度显著提升。 3. 辅助开发提升用户体验: - 针对某大型MOBA类端游的掉线问题,通过数据格式不规范、海量数据处理等挑战,采用数据上报、清洗、需求分析等方法,提升用户体验。 - 数据需求包括目标信息、基础属性、交叉数据等,数据处理包括随机森林预测、重点维度筛选、相关性分析等。 - 优化效果显示,重连失败率和掉线玩家转化率显著改善,业务收益包括提升玩家留存率和减少投诉。 4. 提升运维工作效能: - 针对扩容缩容消耗巨大人力投入的问题,通过快、准、高质量的执行系统,建立模型、预测、调整参数等方法,提升运维工作效能。 - 原理包括数据源、数据清洗、数据预处理、最小二乘法、机器学习平台等,效果显示智能运维在扩容缩容方面的显著优势。 5. 改变运维监控工作方式: - 无需人工配置策略,涵盖更多复杂场景,告警更加准确。通过曲线分类、算法原理、模型训练、模型应用等方法,改变运维监控工作方式。 - 应用案例包括不同指标的告警策略优化,效果显示智能运维在告警准确性和效率方面的提升。 6. 指导运维发现异常日志: - 通过原始日志、向量化的日志、实现流程等方法,指导运维发现异常日志。应用案例包括日志分析和异常检测,效果显示智能运维在日志分析方面的优势。
AIOps在运维日常工作中的服务模式: 报告最后介绍了AIOps在运维日常工作中的服务模式,包括业务多、场景多、需求差异大等情况下的服务提供方法。服务模式包括: 1. 业务很多:如何提供服务? 2. 场景很多:如何提供服务? 3. 需求差异很大:如何提供服务?
本文为AIOps在运维团队的实施提供了宝贵的实践经验,展示了如何通过DataOps和AIOps技术,提升游戏运维的效率和质量,解决实际工作中的挑战,为其他企业提供可借鉴的实践路径。
|