《中国智能运维实践年度报告(2022-2023)》之实践案例分享-擎创科技
整体建设思路
从业务视角出发,以一体化数智运维平台为核心,进行多种企业级运维场景的建设。在不影响原有各专业领域运维工具的前提下,通过一体化数智平台桥接流程管理平台和安全运营中心,实现全行运维的统一运营管理。
建设目标
建设一体化数智运维平台,打造企业级运维管理能力。首先形成运维数据治理体系,落地运维配置的闭环管理,进行运维工具的一体化转型,达到能够全面覆盖云上云下各类技术栈;进而建设安全可靠易用的工具平台,提升运维操作自动化覆盖,实现全行生产可视化展现以及工具建设的自主可控;最后,不断升级优化推动运维场景向智能化演进,全面实现全行运维技能的转型升级,赋能全行运维运营管理能力。
建设路径
从基础能力层、场景层、门户层分层建设,首先形成数据运营与智能算法、企业级CMDB、操作自动化三大基础服务能力,然后以业务需求为核心,建设各类运维场景,如应用监控、集中告警、灾备切换、应急处置、应用发布、批量操作等,最后整合场景端能力,兼容展现终端,实现智能可观测的可视化展现,按照业务需求总览系统状态,达到服务全行的能力。
基础能力层
1)数据能力
建设运维大数据平台,从物理层、逻辑层、应用层分别入手,纳管来自总行、分行、云上云下、流程操作等各类数据,数据类型涵盖CMDB( 50+项配置数据、600+条属性数据、50万+的配置数据量)以及日增大数据(5TB指标数据、40TB日志数据、 20TB其他数据);同时,建立数据集市,制定数据治理规范和标准,对海量的数据进行高效处理、计算及存储管理,并对数据的质量进行全面监控,实现数据服务标准、敏捷,为全行生产运维场景的智能化演进提供高可用、高价值的数据和算力支撑。
场景层
1)应用监控场景
平台监控场景构建总览业务视图,将现有不同领域、不同层次、不同类型的监控进行整合,集中管理总分行各项监控功能。
依托大数据平台数据集市和CMDB,统一构建所有监控运维数据指标体系,实现跨技术领域数据关联分析,可以提供符合专业领域运维人员、分行人员、开发人员、管理人员等多种角色日常工作需求的监控视图。同时结合应用拓扑和调用链,基于大数据平台的智能算法分析,提供动态阈值、关联分析、同源分析、趋势预测等多个智能化分析场景。
2)集中告警与应急处置联动
依托运维大数据和智能算法的基础能力支撑,打造云上云上全技术栈一体化的应用系统观测视角,关联展现应用系统各领域、各维度、各技术栈的指标数据、动态阈值基线、云资源配额使用情况、异常告警信息和流程情况,并支持钻取。运用静态规则+智能算法进行指标异常检测关联分析,支持告警联动自动化处置和事件变更流程,形成从监控告警到应急处置及流程的闭环。
3)灾备切换场景
基于保证业务连续性、保护数据安全性以及应对操作自动化平台变更模块时可能产生的应急问题,建设灾备场景,包括灾备切换总览、规划管理、切换设计、切换管理、评估改进五个模块,为中心级全部场景灾备管理提供服务。实现跨系统调度的全行调度能力,实现业务系统在生产机房和灾备机房之间的一键切换和回切,最大程度的满足业务运营平稳高效的需求。
门户层
1)服务共享中心
通过对基础能力和外部系统的服务进行治理管控,想运维场景应用统一共享服务,实现标准化的运维能力输出:单节点服务QPS(每秒响应请求数)大于2万,服务路由延时小于1毫秒。
服务注册与发布:提供服务注册与发布能力,对服务接口进行集中管理。
服务授权与鉴权:提供已发布服务的授权、鉴权、白名单管控。
服务流控与熔断:提供精确到秒级的流量控制和自动熔断能力。
服务调用审计:审计服务调用记录,追溯服务调用历史,评估服务效果。
服务路由网关:提供全局与区域网关,实现服务访问的寻址与路由能力。
2)用户权限管理
为基础能力和场景应用提供统一的用户、角色和权限管理体系,覆盖监控场景、告警场景、自动化场景等,支持5000用户同时在线,200用户并发操作。
权限注册:基础能力模块和场景将自身功能权限点注册到用户权限管理,实现功能权限统一管理。服务授权与鉴权:提供已发布服务的授权、鉴权、白名单管控。
权限下发:由用户权限管理完成基础能力模块及场景的授权,并将授权信息下发能力模块及场景。
单点登陆:用户登陆并完成统一认证后,根据用户角色权限,即可访问基础能力或场景,实现单点登陆。
3)统一门户
统一门户作为统一运维平台的主入口,为用户提供一站式访问各个运维场景和各个子模块功能的快捷通道。同时,汇聚各个场景、模块的概览信息,形成个性化的个人工作台及总览视图。
信息汇聚、场景融合:将各个场景和子模块的关键信息进行集中提取和展示过低代码能力将场景根据用户角色进行融合,形成便捷访问的个人工作台
统一登录和授权:用户通过门户实现统一登录和授权,一次登录即可访 问所有具备权限的场景和子模块
界面快捷创建:门户提供前端界面的低代码快速开发能力,用户可以通过拖拽和图形化配置实现简单操作界面的快速创建
统一界面规范:建立一套统一的用户界面规范,使新建应用界面风格基本一致,降低用户学习成本,提升美观度
实践成果
1实现全领域数据接入:接入涵盖指标、日志、告警、配置、流程5大领域数据。应用、系统、网络、服务器、存储、云六大块领域,实现日增数十亿的海量数据存储。
2智能化数据处理能力提升:依托运维大数据平台,搭建标准化、可视化、智能化的数据处理平台;通过统一数据集市+用户自主开发的方式向数据开发人员提供数据服务。将数据接入、处理、服务提供整体供数效率从T+7提升至T+2。
3大幅提高故障处理效率:应用监控、集中告警场景配合建设,实现应用故障20秒以内告警,20分钟召集处置。
4运维数据标准化:完成指标、日志、告警、配置、流程这些运维数据的建模,完成基础对象体系、指标体系、配置管理建模,落地运维数据治理,确保了数据的时效性,完整性,关联性,有效性,为应用监控场景、智能分析场景提供高质量的数据支撑。
5试点全链路应用监控:推广全行统一应用开发框架JUMP,部分系统试点链路追踪分析场景,为将来全面推广应用链路分析做准备。