本文是关于某运营商业务支撑系统(BSS)AIOps(Artificial Intelligence for IT Operations,智能运维)案例的分享报告,由国内最大的数字化时代IT服务管理交流社区ITIL先锋论坛提供。报告从该运营商的IT系统和运维发展、AIOps的落地与应用实践、推广方法和运维平台建设心得、对未来运维的展望四个方面,详细介绍了该运营商在AIOps领域的实践和经验。
IT系统和运维发展:
报告首先介绍了该运营商的IT系统,包括管理支撑系统(MSS)、网管支撑系统(OSS)、业务支撑系统(BSS)和业务系统及产品(SSS)。特别指出B域业务支撑系统规模大、架构复杂、正进行演进,而M域管理支撑系统规模小、数量不少、技术栈复杂。这些系统的发展催动了运维水平的提升,提供了理想的试验田。
AIOps的落地与应用实践:
报告详细介绍了AIOps的落地与应用实践,包括自主自愈无人值守、运维事件自动化、运维操作平台化、运维平台具备编排能力、部分运维场景智能化、运维平台一体化、复杂运维场景智能化、绝大部分关键场景应用自动化和智能化技术等。具体措施包括:
- 运维流程、标准等的建立和管理:流程化、标准化。
- 工具标准化管理:平台化、自动化。
- AIOPS场景预研:对异常检测、根因分析、知识图谱等经典场景开展预研,重点选取运维痛点场景优先建设。
- 自动驾驶模型对标优化:从L1~L3的水平,整体拔高到平均L3以上的水平,形成多场景全流程串联。
- 扩展生产对象及丰富场景:扩充对象、扩充场景、扩充联动,打造故障诊断、知识管理联动等高阶场景。
推广方法和运维平台建设心得:
报告分享了AIOps推广方法和运维平台建设心得,包括:
- 明确推广目标和计划:场景特点+现实痛点+推广目标+落地时间。
- 构建推广效果评估指标:AIOps场景指标体系+月报分析。
- 优化运维工作量结构:转变维护人员思维+引导+压降。
- 建立团队分工协同机制:角色分工+周报月会+双周落地复盘+持续迭代。
- 重点场景专项分析推广效果:异常检测、故障诊断、运维机器人等重点场景专题分析。
- 管控运维后台登录账号:限制后台+鼓励智能化自动化+定期统计。
对未来运维的展望:
报告展望了未来运维的方向,包括:
- 持续演进的数智化运维平台:端到端可观测中心、统一入口、流程平台、日志平台、数据库管理平台、自动化测试平台。
- 规划思路:明确分工界限,同质能力合并。
- 探索尝试应用各种AIOps场景:不断探索尝试应用各种AIOps场景,寻求应用效果不错的AIOps场景,期盼交流新技术、新理念在运维中的应用,例如元宇宙、ChatGPT。
应用成效:
报告展示了AIOps应用的成效,包括:
- 完成B域、M域核心系统接入:包括性能、业务、告警、日志等X大类在内的XXX种指标项,纳管资源XXX多项,日处理指标数据XXX条。形成故障自愈预案XXX个。
- 故障诊断准确率:XX%。
- 故障诊断运维成本降低:XX%。
- 故障处理效能提升:约XX%。
- 智能机器人工单推荐能力:智能运维机器人智能修复能力,智能机器人智能问答能力。
- 图谱知识管理:文档、数据库、申告单等不同类型数据的自动学习,图谱知识推理。
- 降本:问答、推荐使用频率X次+/月,减少X万张事件单/年,节约人力X万元/年;操作执行X万次以上,折算数据修改单X万张,每年节约人力X万元。
- 增效:以某千万用户级别地市为例,该地市每月XXX多张IT投诉工单的平均处理时长缩短了XX左右,显著提升了客户满意度。
本文为运营商的AIOps智能运维实践提供了宝贵的实践经验,展示了如何通过自主自愈无人值守、运维事件自动化、运维操作平台化、运维平台具备编排能力、部分运维场景智能化等措施,实现AIOps的落地和应用,提升运维管理的质量和效率,为其他运营商提供了可借鉴的实践路径。