×

扫描二维码登录本站

标签: 暂无标签
粘贴上传202501101439023138..png





本文是关于某银行AIOps(Artificial Intelligence for IT Operations,智能运维)智能运维实践案例的报告,由国内最大的数字化时代IT服务管理交流社区ITIL先锋论坛提供。报告从AIOps建设背景及目标、落地思路及平台框架、实践案例分享、未来方向展望四个方面,详细介绍了该银行在AIOps领域的实践和经验。

AIOps建设背景及目标:
随着业务数字化转型及架构分布式转型的加速,商业银行的IT运维架构逐渐从传统运维架构向“双态”运维架构演进,既注重“风险防控,力求安全”的“稳态”,又追求“快速交付,提升体验”的“敏态”。这种演进的背后是从“IT运维”到“IT运营”的转型诉求,旨在让系统从“活着”向“活的好”转变,管理从“有举措”到“有成效”转变。AIOps期望实现的四个目标包括更早发现风险、更精准的运营决策、更快解决问题、更智能的运维管控。

落地思路及平台框架:
AIOps落地面临的现实问题包括数据获取难、分析手段单一、个性化运维数据分析场景需求多变、共性分析场景缺乏统筹实施等。为解决这些问题,报告提出了以下落地思路:
1. 解决数据问题:构建运维数据集市,从数据汇聚、建模加工、指标体系三个层次构建规范化、标准化的运维数据集市,促进运维数据的高效共享与应用。
2. 提升分析效率:建设分析引擎,结合智能引擎、平台思维、有效管理,实现运维分析换挡升级,丰富运维分析手段,提高运维分析效率。
3. 促进场景应用:构建场景生态,强化主动运维、数据运营理念,针对运维领域痛点、难点、个性化问题开展场景化分析应用建设,促进整体运维能力提升。

实践案例分享:
报告分享了几个具体的AIOps实践案例,包括:
1. 潜在风险挖掘:通过对海量历史运维数据的建模和分析,识别系统运行规律,提前提示潜在运行风险,形成风险的分析-发现-跟踪-处置-优化全流程可追溯,促进系统运行稳定性的全面提升。
2. 全景智能洞察:针对海量告警、指标监控人工分析工作量大、数据割裂不便排查等问题,通过构建系统运行健康度实时评价体系、提升海量资源指标的算法分析效率、建设全方位立体可视化全景洞察视图,实现对系统运行情况的全景智能洞察,提高分析决策效率。
3. 智能根因定位:综合考虑指标、告警、关联等运维信息,构建自下而上的运行健康度实时评价体系,融合AI算法+专家经验的智能诊断工作台,在故障出现异常时快速推荐可能根因。
4. 系统运营画像:参考DIKW金字塔模型构建“数据-特征-指标-标签”的应用系统画像框架,通过建立“运行、运维、运营”三运指标体系,并在此基础上对指标进行横向对比、纵向分析,抽取“标签化”知识,更好地辅助运营决策。

未来方向展望:
报告展望了AIOps的未来发展方向,包括:
1. 从利用机器学习算法实现特定场景向平台化、体系化发展:通过运维数据平台、运维分析平台提供的数据服务能力、算法服务能力及场景建设能力提供体系化智能运维服务。
2. 重视智能运维的体系化建设:除注重算法效果外,人机交互、算法效果可视化、算法结果可解释的进一步提升更有助于运维人员理解AI的决策。
3. 可观测、可解释性需求加强:在依然关注故障告警、异常检测等传统场景的同时,开始逐渐注重故障预测、风险发现等事前场景,注重提升风险的发现、溯源、管理及处置能力建设。
4. 多领域深化赋能:除了传统的质量、效率类场景,为运维管理、安全管控等领域进行赋能也是AIOps的下一个重点方向。

本文为银行的AIOps智能运维实践提供了宝贵的实践经验,展示了如何通过构建运维数据集市、提升分析效率、促进场景应用,实现AIOps的落地和实践,提升运维管理的质量和效率,为其他金融机构提供了可借鉴的实践路径。


IT运维管理:ITIL先锋论坛—某行 AIOps智能运维实践案例.pdf (6.98 MB, 下载次数: 0)





上一篇:某互联网公司的SRE组织建设 (IT运维管理)
下一篇:某行私有云FinOps案例分享 (IT运维管理)
slbenben

写了 1759 篇文章,拥有财富 10741,被 9 人关注

您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies

成为第一个吐槽的人

Powered by ITIL  © 2001-2025
返回顶部