×

扫描二维码登录本站

标签: 暂无标签
粘贴上传202501111005225363..png





本文是一份关于某金融机构AIOPS能力建设经验分享的报告,旨在介绍该机构在智能运维领域的实践和成果。报告由国内最大的数字化时代IT服务管理交流社区——ITIL先锋论坛的专家在GOPS全球运维大会2022·上海站上提出。报告内容涵盖了智能运维能力建设的背景、场景建设、数据基础能力建设以及未来展望等方面。

智能运维能力建设背景
报告指出,随着业务的快速创新和技术架构的日益复杂,运维面临着巨大挑战。分布式、微服务、云计算等新技术架构的并存,要求运维人员具备更广泛的知识和技能,同时动态响应业务需求。运维对象数量激增,关联性复杂,导致故障定位困难,需要提供按需而变的运维保障服务。

智能运维场景建设
报告提出了智能运维的建设思路,包括场景驱动、数据支撑、智能决策和自动实施。通过面向运维使用场景,优化运维数据的处理能力,利用人工智能算法实时检测系统运行状态,解决异常检测、故障定位等问题,并通过RPA(机器人流程自动化)和自动化平台标准化运维流程,提升企业运维效率。

智能算法整体建设情况
报告详细介绍了智能算法在故障发现、故障全景视图、日志异常检测、指标异常检测、多维异常定位等方面的应用。通过提取业务指标、日志数据,实现故障发现和多维异常定位,提供详细的异常指标和日志模式展示,辅助运维人员快速定位问题。

指标异常检测
通过对业务性能黄金指标数据(如交易量、响应时间、错误数等)进行异常检测,识别业务指标趋势的反常变化,及早发现问题风险,缩短故障发现与恢复时间。智能检测能够动态调整阈值,减少误报漏报,适应不同时段的规律变化。

多维异常定位
当系统级别的业务指标发生故障时,通过多维异常定位快速判断异常程度最高的维度属性,精准缩小排障范围。系统自动提取重要维度,进行多维组合分析,分钟级产生根因推荐。

日志异常检测
系统日志格式多样,通过日志的相似性进行聚类,对日志模板的频率变化进行检测,将未匹配日志及频率改变的日志进行告警提示,辅助运维人员快速定位异常。日志异常检测通过多种告警合并,避免管理员重复收到大量告警,便于定位原因。

基于知识图谱的故障定位
通过数据接入、实时数据流、CMDB、调用链数据等,构建故障子图,实现流式根因定位。基于知识图谱的故障定位能够快速识别故障原因,提供精准的故障诊断和风险预警。

数据基础能力建设
报告指出,智能场景建设面临数据孤岛、数据质量不高、数据不可知等问题。数据治理的开展思路包括运维数据治理目标、组织保障机制、治理管控城、技术保障机制等。通过数据治理顶层设计,实现数据的统一连接、质量提升和服务自助化。

数据治理开展思路
数据治理的目标是以质量为中心,以活量为导向,保障体系成果,以服务为价值。通过组织架构、角色职责、管理办法、绩效监督和考评等机制,确保数据治理的有效实施。

数据治理顶层设计
数据治理的顶层设计包括总纲架构、运维数据治理蓝图演进适配、运维数据治理管控政策优化梳理等。通过数据管理域、解决方案、运维数据治理需求梳理等,实现数据的全生命周期管理。

运维数据治理技术实现要点
技术实现要点包括对象识别、数据质量标准、元数据管理、数据安全等级定级、统一数据服务设计规范等。通过数据质量管控、数据血缘、数据服务生命周期管理等,实现数据的高质量管理和安全访问控制。

未来展望
报告对未来展望进行了阐述,包括挖掘统一数据底座、整合应用场景、安全运营、自研算法等方面。通过数据治理完善优化平台通、智能算法、运维应用场景等能力建设,持续发挥运维数据的价值,提升IT技术运营价值。通过优化整合技术运营与安全运营两大领域,结合数据与智能能力,为公司数字化转型保驾护航。

报告详细介绍了某金融机构在AIOPS能力建设方面的实践和经验,强调了智能运维在应对业务创新和技术架构复杂性方面的关键作用。通过智能算法、数据治理和未来展望,报告展示了如何通过技术创新提升运维效率和质量,为金融机构的数字化转型提供支持。


IT运维管理:ITIL先锋论坛—某金融机构AIOPS能力建设经验分享.pdf (21.2 MB, 下载次数: 0)





上一篇:某金融公司基础设施IT运维管理体系的实践之路 (IT运维管理)
下一篇:某校园网络建设和IT运维服务项目投标书 (IT运维管理)
slbenben

写了 1784 篇文章,拥有财富 10868,被 9 人关注

您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies

成为第一个吐槽的人

Powered by ITIL  © 2001-2025
返回顶部