超大规模IT系统运维稳定性保障经验分享

slbenben

超大规模IT系统运维稳定性保障的经验分享报告，由中国联通的运维负责人在GOPS全球运维大会2022·上海站上提出。报告主要探讨了中国联通cBSS系统（全球最大的电信运营商支撑系统）在运维稳定性保障方面的实践和经验。

困难与挑战

随着系统的变革，中国联通cBSS系统面临了诸多困难和挑战。系统从2014年的31省BSS集约，到2019年的云化、微服务、分布式架构，再到2022年的混合架构，故障频发，定位慢，协作难，工具分散，数据不拉通，缺乏全流程的可观测性。

稳定性保障体系

为应对这些挑战，提出了一个全面的稳定性保障体系，包括制度规范保障、运营机制保障、组织架构保障和平台工具保障。这一体系依托四大保障，聚焦研运流程中Ops部分的三个阶段，对应十四项核心工作，旨在提升中国联通大IT的稳定性。

制度规范保障

在制度规范保障方面，制定了《大IT生产运营规范》、《红线底线纪律条例》和《大IT生产运营奖惩方案》。这些规范明确了团队组织、分工、流程和工作要求，落实了集中系统维护职责，筑牢了安全风险防线，激发了活力，时刻保持警醒。

组织架构保障

组织架构保障方面，创建了四级安全生产运营保障团队，包括集团数字化部运营管理处、联通软件研究院的一体化SRE运营团队、分子公司运营响应团队和一线业务团队。这些团队分别负责不同的职责，如应用运维、平台运维、基础设施运维等，形成了一个有序协作的运维体系。

平台工具保障

平台工具保障方面，报告介绍了中国联通数字化监控平台，该平台为运营保障2.0体系中的十四项核心运营工作提供了端到端、全层级、全流程的工具支撑。这些工具包括配置管理、自动化作业、故障自愈、自动化运维、任务调度平台、变更追踪、业务监控、日志中心、智能监控告警平台等。

运营保障篇

运营保障的各个方面，包括链路识别、全层级监控、自动化巡检、隐患管理、应急预案、应急演练、故障调度、故障定位和故障闭环。这些措施通过制度规范、注意要点、平台工具和落地方法四个方面进行了详细的阐述，确保了故障的快速发现、定位、处理和复盘。

关键结论

- 链路识别：通过识别核心业务链路，提升运维人员对业务流程、系统架构及系统调用关系的了解，减少故障分析时间，提前识别系统隐患。

- 全层级监控：实现从业务到触点、应用、中间件、云平台、基础资源的全层级指标数据监控覆盖。

- 自动化巡检：模拟人类工作方式，实现7x24不间断业务巡检，主动侦测防御，发现问题出具报告。

- 隐患管理：利用运维大数据与专家排查双重手段，进行全面故障预防，确保隐患“三到位”（安全保障责任到位、隐患监控到位、预防预案到位）。

- 应急预案：重点关注预案覆盖来源、应急预案分类、应急预案书写要点，确保预案可执行，确认预案实际执行时间。

- 应急演练：围绕故障快速恢复目标，通过桌面演练和实操演练，压降故障历时，提升应急响应能力。

- 故障调度：遵循“先抢通、后抢修”原则，通过“三线一屏”分析法及五类角色职责，确保故障快速恢复。

- 故障定位：通过观影响、定分类、查变更、有序层级排查，快速定位故障，提升故障处理效率。

- 故障闭环：通过故障复盘、故障报告、故障演练、整改跟踪、故障定级、故障定责、故障处罚和故障受教育，确保故障不再发生或可快速恢复。

展示了中国联通在超大规模IT系统运维稳定性保障方面的丰富经验和实践成果。通过构建全面的稳定性保障体系，中国联通成功应对了系统变革带来的挑战，实现了运维的高效管理和数字化转型。这些经验对于其他企业应对类似挑战具有重要的参考价值。

评论