it168 发表于 2023-12-25 11:23:42

《中国智能运维实践年度报告(2022-2023)》之实践案例分享-中国农业银行


《中国智能运维实践年度报告(2022-2023)》之实践案例分享-中国农业银行
在平台实际建设过程中,我们面临着三个具体的问题: 一是如何将分散、割裂的运维数据资产化?在平台建设之初,通过调研我们发现,运维领域的各类数据分散在不同系统,缺乏统一的规范、标准,数据的采集、加工、聚合是要解决的首要问题。
二是如何将低效、繁琐的分析过程简单化?因为数据分散,因此用户获取运维数据非常困难,多依赖手工采集,质量参差不齐,且分析手段单一,难以深入挖掘数据价值。
三是如何将复杂、多变的分析应用场景化?一些共性类的运维痛点问题缺乏统一统筹,运维数据应用效果较差,一些个性化的场景得不到快速响应,迟迟无法落地,数据无法发挥价值。针对上述问题,农行的解决方案是: 1、数据先行,通过建设运维集市,实现运维领域数据的大集中,并在此基础上构建运维指标体系,以此来实现实现运维数据的有效沉淀与高效共享。2、引擎赋能,通过搭建面向用户的AI+BI双核引擎实现分析效能最大化,为用户提供便捷的线上分析工具,提升用户触达和分析运维数据的效率,从而提升数据的使用效率及价值。3、场景驱动,统筹建设满足共性痛点的通用场景,敏捷响应各类个性化场景,通过共性场景和个性化场景共同推进的方式来切实推动智能运维场景的落地应用,真正解决问题,切实发挥作用。
平台框架 农行运维数据分析平台的框架包括数据集市、分析引擎及智能场景三层。

数据集市
通过建设运维数据集市,将所有运维类平台的数据进行了大集中,包括变更、事件等运维管理类数据,CMDB、接口消费关系等配置类数据,性能指标、告警等监控类数据以及各种运维操作、运行日志及各类IT运营指标数据,通过对6大类运维主题数据的集中管理和统一建模,实现了运维数据的高效共享。将数据入库之后,又通过spark、hadoop、gbase、es等海量数据处理及存储技术,实现了低代码、可视化的海量运维数据处理及存储架构,能够支持灵活、快速迭代各类数据加工需求。同时,结合生产运维领域的各类指标需求,构建了运行、运维、运营三运指标体系,规范化、持续化进行数据赋能,并且明确了运维数据使用和消费流程,支持运维数据的线上申请、审批、使用,实现运维数据获取的统一扎口,并在实际对外提供数据服务的过程中,从需求出发推动运维数据治理,提高运维数据分析质量。 分析引擎
数据分析平台建设了适合运维领域使用的AI算法引擎和BI可视化引擎,AI算法引擎实现AIOps算法组件化建设及共享、在线拖拽式算法设计、模型在线训练及管理了,能够满足一些高阶的分析需求,BI可视化引擎支持在线自助建模、多维度数据钻取、多种自定义可视化组件,能够满足大部分简单的可视化分析需求。 此外,农行按照运维分析项目的维度对分析活动进行了全流程线上化管理,包括了运维分析的申请、审批、成员管理、数据共享、成果展示全流程闭环管理机制,大幅提高运维数据的使用和分析效率。 通过工具赋能以及管理闭环这两种手段,解决了运维分析效率底下的问题。同时也是运维分析理念上的创新,通过这种租户式的场景,为广大科技人员提供了高效的运维分析手段,从而鼓励广大的科技人员自助开展分析,最大化的发挥运维数据的价值。相比传统的由单一团队开展功能建设,由各个科技人员按需开展自助分析更能符合用户的真实诉求,也更能体现智能运维中用数据赋能的理念。 智能场景
场景建设是智能运维的核心,缺少场景落地的智能运维是没办法起到预期效果的。因此,在数据分析平台整体落地的过程中,通过经典场景与个性化场景相结合的方式来具体推动场景落地。 在经典场景方面,针对运维领域的一些共性问题,围绕“事前预警分析-事中运行分析-事后总结分析”这个大的思路,打造了一系列简单、易用、有效的经典场景,解决共性问题。在事前关注运行态势,挖掘运行风险,防患未然,打造了包括批量智能预警、潜在风险挖掘等核心场景;在事中,注重汇聚多方信息,掌控全局情况,辅助异常定位及影响分析,打造了智能根因分析、全景运维视图等场景;在事后,总结历史运行情况,深入挖掘和利用数据,提出优化建议,打造了应用系统画像、健康分析报告等场景。 在个性化场景方面,通过AI、BI引擎提供自助式、定制式的个性化分析场景建设服务,快速响应各个用户的个性化分析需求,必要时采取定制开发的形式进行交付,将数据赋能落在细处,促进整体运维能力提升。 实践案例 本节简要介绍基于数据分析平台实现的几个智能运维场景案例。 01业务态势分析建设背景随着核心系统分布式下移进程的加速推进,运维人员面临的运维压力也与日俱增,如何提前识别业务运行风险、快速定位异常部位、准确分析业务影响是当下亟需解决的问题。传统的方式一般是通过对交易量、成功率、响应时间等指标手工配置阈值的方式来监控系统运行情况,在出现问题后通过查询日志等方式进行故障定位,其监控规则依赖运维人员手工配置,准确性、颗粒度、覆盖面等较难保证,故障分析效率也较低。此外,传统的监控更多是基于系统视角进行配置,无法基于监控信息准确判断业务影响范围。
功能亮点针对上述问题,数据分析平台建设了核心业务态势分析场景,该场景基于对核心交易日志的深入分析,实现了业务波动智能检测、触发式多维下钻分析、业务视角影响分析等功能,从风险预警、异常定位、影响分析等三个层面全方位提高核心业务的运维分析能力。 1)业务波动智能检测:通过对交易码、错误码、渠道、通道等维度的聚合分析生成相关维度的交易量、成功率、响应时间、错误数等业务指标,基于滑动平均、ESD、LightGBM等算法,综合节假日、工作日、业务高峰等时间因素及不同业务指标特性动态生成指标基线,无需人工配置阈值即可智能识别指标异常。在此基础上综合指标异常情况持续时间、偏离度等因素判断指标异常态势,如业务量显著下降、响应时间突增后保持、错误码首次出现、错误码数量持续上升,在识别到异常波动后及时产生预警提示。 2)触发式多维下钻分析:在识别到业务异常后,支持触发式快速下钻分析,通过智能对比当前各维度业务指标相比历史同期、昨日的变化情况智能推荐可能存在异常的根因维度。如在发现某交易码交易量异常上涨时,通过判断该交易码对应的省市、渠道、通道等不同维度指标相比历史的变化程度来判断到底是哪个省市、哪个渠道或哪个通道的异常导致了此交易码的交易量上涨,以此来快速定位异常排查方向。 3)业务视角影响分析:通过交易码与业务的对照关系、交易码与系统的对照关系,在核心系统检测出异常后,自动分析当前受影响的业务种类与系统范围,并根据受影响的程度自动进行业务健康度评级,以此来辅助运维人员快速判断当前故障的影响程度,预判事件级别。
应用效果业务态势分析功能目前已在农行分布式核心系统全面推广应用,作为监控系统的有效补充,业务态势分析功能具有粒度更精细、规则更智能、视角更贴近业务等优点,核心业务系统的故障发现率提升了50%,异常维度定位定位准确率高达90%。 02全景运维视图建设背景新技术栈、分布式架构下导致运维对象指数级上涨,业务调用链路更加复杂,应急定位效率亟须提升,而当前由于条线、平台信息割裂、海量指标无法有效精准分析等问题,运维人员无法快速掌握系统运行全貌,也缺乏快捷精准的辅助决策信息。
功能亮点针对上述问题,数据分析平台构建了全景运维视图场景,从一站式信息汇聚、海量指标异常检测、智能根因分析等方面全方位提高运维数据的展示、分析及决策辅助能力。 1)一站式信息汇聚:对于因各条线、各平台信息割裂,导致运维人员无法快速掌握生产运行全貌信息,无法准确决策的问题。通过对系统关联信息、资源拓扑信息、运维活动信息、性能指标信息的全景汇聚,结合一些拓扑图、关联图、时间线等创新性的展示形式,让用户能够快速、友好的掌握各项运维数据,辅助开展决策。 2)海量指标异常检测:对于海量的监控指标全量分析的性能及准确度问题。通过相关性分析算法实现指标的分组分析,大幅降低需要检测的指标数量,解决海量指标全量异常检测的性能瓶颈,并基于不同的指标分类自适应选择不同的检测模型,提升指标异常检测准确率。 3)智能根因分析:对于故障根因较难定位的问题。通过构建系统运行健康度实时评估体系、打造AI算法与专家经验相结合的全方位根因定位平台等方式,实现对系统运行情况的智能洞察与快速定位,能够智能推荐当前最可能导致生产运维的异常指标或行为。
应用效果目前农行智能根因定位场景已在生产上得到了广泛应用,为生产异常的“及时发现、准确定位、快速处置”提供了有力支持,其中AI根因定位已覆盖全部应用系统,专家定位流程覆盖70余个系统共积累200余条专家经验,生产异常的定位时间压缩至5分钟以内。 03变更风险评估建设背景据业内某机构统计,有70%以上的生产故障是因为投产变更导致,如何有效方防范及发现变更导致的运行风险是有效遏止生产事件发生的关键手段。传统的变更风险防控手段一般是在变更前进行变更评审,在变更后进行技术和业务验证,这种方式存在两个问题,一是变更评审阶段主要依靠变更申请人填写的变更信息进行审核,依赖较多人为因素,且在当前变更数量日剧增长的情况下,无法对每个变更都进行有效的评审。二是变更后的技术或业务验证有效性较难保障,人为设计的验证案例无法覆盖全部业务场景,也较难真实模拟客户交易情况。
功能亮点基于上述问题,数据分析平台针对性的建设了变更风险评估场景,该场景基于对变更相关的工单数据、配置数据、关联数据、指标数据的深入挖掘,在变更前、后分阶段从不同的维度和视角探测变更风险,有效提升了变更的管控水平和风险识别能力。 1)变更前-智能标签生成:梳理可能影响变更风险的关键要素,制定对应的标签及生成规则,利用统计分析、NLP等数据分析方法提取变更标签,结合重要程度为每个标签设定权重,并综合变更总体的权重得分在变更评审时智能推荐给评审人重点关注。如从变更内容或测试报告中智能提取变更涉及的交易码,进而判断本次变更是否影响重要业务,生成变更重要度标签;从同系统同类变更的历史成功率、耗时、回退次数等数据判断变更风险级别标签;从变更中涉及的资源范围、代码基线数量自动生成变更规模标签等。 2)变更后-指标变化探测:通过对系统变更前后各项监控指标、日志数据的变化情况的分析来判断系统运行态势是否因变更导致大的变化,进而评估变更风险,如系统变更后相比变更之前交易量是否出现大幅下降、响应时间是否出现大幅上升、是否存在新增错误码、某类业务异常数据量是否出现大幅上涨等。
应用效果变更风险评估功能目前正在分布式核心、手机银行、快捷支付等系统试点应用,在试点期间多次捕获由变更导致的指标态势变化,其中2次通过该功能成功识别出异常变更信息,有效遏止了生产风险。后续,数据分析平台将继续深化该功能建设。



页: [1]
查看完整版本: 《中国智能运维实践年度报告(2022-2023)》之实践案例分享-中国农业银行