×

扫描二维码登录本站

标签: 暂无标签
粘贴上传202501101406097080..png


本文详细介绍了中国电信在“IT上云三年计划”背景下面临的运维挑战及构建的SRE(Site Reliability Engineering,网站可靠性工程)运维体系。2020年7月启动的上云计划,使运维遭遇诸多难题:PaaS层采用自研组件、IaaS层上天翼混合云致维护模式变复杂;分布式架构使系统节点和微服务剧增,监控难度大;监控对象关系复杂,传统维护模式难以为继;运维团队分散、缺乏集约化工具、流程管理混乱、监督不到位、规范不完善等。


为应对挑战,中国电信构建了稳定运营保障体系,围绕“故障次数、时长双压降”目标,依托四大运营驱动力,聚焦事前预防、事中响应、事后改进三个阶段,形成规范、动作、能力三统一的运营体系。具体措施包括组建SRE运营团队,由运营管理、一线运维、二线专家团队构成;运用数字化工具如云眼、凤凰、ITSM系统;加强运维流程管控,涵盖隐患排查、应急预案、风险操作、故障管控流程;实施检查奖罚并举,通过健康评估、积分驱动、检查考试手段;健全IT运维规范,制定统一规范并强化执行。


在团队组建方面,明确各团队职责,如一线值班台承担告警响应与调度,二线专家负责故障定责、复盘等,运营管理团队负责稳定运营与故障压降。同时,营造运维文化,举办运维吐槽大会收集建议,推出“小羲说运维”分享经验,构建故障目标认领与零故障激励体系,鼓励减少故障。


摸清家底方面,通过CMDB建立精准纳管三层资源数据,打破数据孤岛,推动资产信息准确,实现全生命周期IT资源管理。集中调度上,实现全层级监控、告警标准化与集中调度闭环管控,规定值班要求确保7*24小时监控。


集约流程管控涵盖风险操作流程、风险隐患与应急预案流程、故障管理流程、强化故障复盘管控。风险操作流程严格管控执行,风险隐患与应急预案流程实现动态梳理与集中管理,故障管理流程确保故障登记、复盘、反馈、验收闭环,故障复盘遵循特定原则与环节。


智能运维工具的构建包括三屏联动可观测平台、基于RPA技术的数字哨兵、移动端半自动化故障自愈工具、AI场景应用、智能告警关联分析。这些工具提升监控、故障自愈与告警分析能力。


应急体系建设上,构建“四级应急体系”,包括分布式缓存全阻、第三方支付通道故障、K8S集群故障、生产机房故障的应对措施,目标30分钟内业务恢复。同时,构建SRE系统运营能力评估体系,覆盖多能力域,通过分数驱动定级奖惩,动态调整评估细则,实时更新分值,借助工具支持管控。


加强IT运维规范沉淀和执行,确立规范目标与成效,通过考试、宣贯等手段强化规范意识,迭代更新规范内容,形成SRE运维体系的“系统纳管五步十流程”,涵盖摸清家底、集中调度、集约管控、能力提升、手段管控等环节,全面提升运维效率与质量,保障系统稳定运行。


IT运维管理:ITIL先锋论坛—某电信IT 运维 SRE 体系建设经验.pdf (5.65 MB, 下载次数: 0)






上一篇:iTop(开源ITIL软件)— 问题管理模块
下一篇:某互联网公司HDFS存储运维经验 (IT运维管理)
slbenben

写了 1759 篇文章,拥有财富 10741,被 9 人关注

您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies

成为第一个吐槽的人

Powered by ITIL  © 2001-2025
返回顶部