本文是关于某互联网公司混合云大数据SRE(Site Reliability Engineering,网站可靠性工程)实践经验的分享。文章从背景和挑战出发,详细介绍了大数据SRE体系在成长期和成熟期的建设过程,以及后续规划,旨在提升大数据平台的稳定性和运维效率。
背景和挑战: 该公司业务线丰富,覆盖国内300多个城市,拥有庞大的月活用户和司机数量。大数据平台承载着10PB+的存储量和20K+的日均任务数,分布在多个IDC和云服务上。大数据的使命是驱动业务数智化,助力公司业务持续增长。面临的挑战包括核心组件无感知挂掉、监控指标不全、运维方式原始、易出故障等。
大数据SRE体系建设 - 成长期: 在成长期,公司从脚本化改造入手,逐步建立自动化运维体系。重点包括: - 监控告警体系:建设大数据侧监控告警体系,实现基础设施问题100%通过监控告警系统发现并预警。 - 运维规范:制定大数据基础架构变更规范,确保变更有法可依。 - 标准化和一致性:梳理定义SOP,保障线上不同组件机型、参数、配置一致性。 - 脚本化建设:高频操作脚本化改造,使用ansible-playbook编排运维脚本。
大数据SRE体系建设 - 成熟期: 成熟期的建设更加注重稳定性和成本控制,具体措施包括: - 稳定性保障:针对大数据领域下场景的多样性(在线/实时/离线)和稳定性保障的特殊性,制定故障管理规范,确保故障复盘率和整改完成率100%。 - 监控告警能力:增强监控告警体系,实现核心业务接入率提升至100%,线上问题接近100%由监控告警提前发现。 - 资源治理:进行容量规划和预警,建立公司级核心链路和部门级资源保障能力。 - 平台/引擎治理:对高风险bug进行fix,治理不合理和不安全参数,增强平台能力。 - 保障规范:建立研发和发布规范,故障管理规范,以及平台能力增强措施。
后续规划: 文章最后提出了后续规划,包括: - 场景支撑:继续加强大数据场景的支撑能力。 - 稳定性保障:进一步提升大数据稳定性和安全性。 - 智能运维体系:构建大数据智能化运维体系1.0,实现大数据全场景稳定性(在线/实时/离线)。 - 成本管理:优化成本管理,提高资源利用效率。
思考与总结: 文章最后提出了对大数据SRE团队职责边界的思考,探讨在全面上云时代,传统的“50%运维+50%开发”定义是否仍然适用于大数据SRE。同时,强调了大数据智能化运维体系的重要性,以及对大数据全场景稳定性的追求。 整体而言,本文为互联网公司大数据SRE体系建设提供了宝贵的实践经验,展示了如何通过监控告警、运维规范、自动化脚本化、资源治理等措施,逐步提升大数据平台的稳定性和运维效率,同时也为未来的发展方向提供了清晰的规划。
|