平安科技AIOPS体系概览 - 体系架构:基于运维大数据分场景实现,模型结果回流工作流程形成闭环,整体提升运维能力。涵盖运维数据中台、智能定位、智能检测、智能预测等三大智能场景,以“知、决、行”为行动准则,整合变更信息、告警监控、配置数据等运维基础数据。 - 目标:实现准确告警、及时恢复和主动预防。准确告警旨在克服传统静态阈值或同环比算法策略的局限,利用AI模型自适应指标趋势,精准发现异常变动;及时恢复依托AI模型训练学习,集成专家知识,智能快速发现并定位故障根因,辅助快速恢复;主动预防则借助机器学习、深度学习算法模型,探索故障前趋势变化规律,智能预警,提前介入预防故障。
AIOPS体系架构细节 - 运维大数据平台:处理历史数据和实时数据流,为智能检测、告警中心、智能定位、智能预测等模块提供数据支持。 - 计算平台:基于运维数据中台建立,负责离线建模、模型存储和实时计算,将各场景计算结果实时返回统一告警中心,形成工作流程闭环。
智能检测建设 - 建模方法:在资源有限、难以用海量标注训练出准确模型的情况下,先总结典型异常特征曲线、提炼业务规则、选取适用算法建模,再采用先无监督试算、后抽样标注,反馈训练优化的方法,在有限标注样本量下,建立效果较好的模型。异常特征曲线包括无规律性波动曲线、异常掉0型曲线、突增型波动曲线等九种类型,对应采用无监督学习、统计算法、时序算法、深度学习等不同算法。 - 训练泛化:基于历史训练学习、动态发现特征,实现对海量新指标的泛化应用,达到有限样本下支撑海量指标的检测应用,保持较好的准召率。通过分析试点样本指标特征,提炼特征与适合算法的关系,构建自动分类器和特征学习过程,实现新增指标自动学习特征和动态特征学习,根据特征选择适用算法,完成模型泛化。 - 应用效果:动态策略自动覆盖千万级指标检测,大幅提升监控完善程度;60%的阀值和静态策略监控被替换为AI智能检测监控,准确发现故障,故障直接发现根源异常的比例大幅提升;覆盖应用、基础全领域关键指标,指标类型超500类,持续抽样准召率达到双88%,相较原有告值和静态算法策略告警,准确度提升1倍,冗余告警事件大幅下降,发现故障及时度提升。
智能定位探索 - 实现方案:基于调用链和CMDB,运用聚类和推断相关机器学习算法,在海量告警中快速推断出故障根因。具体通过告警聚类、特征提取、推断排序三个步骤实现智能定位过程。告警聚类将特征相似和距离接近的告警归集为同一问题,分类海量告警;特征提取运用特征工程相关算法,提取问题中各异常点的特征信息;推断排序则运用集成训练多颗决策树方法,基于历史标注构建推断定位模型,计算各异常点的影响度,推断出最可能为根因的前几项告警,实现故障定位。 - 探索实践:完成定位模型主要场景覆盖、问题定位平台和匹配完整数据平台建设,全面投产到生产运维应用,故障发现和定位结果实时返回告警中心形成闭环流程。细分应用调用、数据库相关、物理机相关、网络相关、存储相关等各领域深入场景,逐项迭代扩展模型,按需清洗集成相关数据,一边迭代一边尝试应用,在应用/数据库相关场景,训练准确率已超过70%。从历史故障提取数百笔典型案例,集中应用相关主要场景,构建数据、规则进行建模,实现基础定位模型。集成应用调用链数据、指标/告警数据,对齐CMDB,提炼基础设备CI依赖/调用关系。
思考与展望 - 运维数据中台建设:强调标准一致的运维数据是快速落地AIOPS场景的基础,建设围绕CMDB的实时流动数据中台可加速智能化进程。 - 细分场景逐层落地:指出不存在通用的、全面适应各种场景的模型或算法,细分场景逐步深入是必经过程。在数据条件成熟的场景,尝试单点突破,再扩展延伸。 - 由事中提升到事前:未来将向各类预防或避免故障、风险的场景进行探索落地,实现完整的智能运维,从当前的事中处理向事前预防转变,构建更完善的智能运维体系。
|