本文是关于智能运维建设路径与最佳实践的报告,由COPS2020在深圳站的演讲内容整理而成。报告从业务数字化加剧造成的运维挑战、如何分层构建智能运维体系、循序渐进的智能运维场景化构建模式、案例和价值分享四个方面,详细介绍了智能运维在企业中的应用和实践。
业务数字化加剧造成的运维挑战: 报告首先指出,随着业务数字化的加速,企业必须具备智能运维能力。以网联发生机房故障为例,某IDC服务商机房因电力负载过高导致配电柜开关跳闸,生产机房停电,空调停止运行,设备宕机,业务全网中断。这一事件凸显了运维在数字化转型中的重要性。运维的当下与未来包括分析的局限性、数据治理、主动运营等方面。智能运维的本质是提升运维数据的认知能力,Gartner预测至2022年,大型企业中的50%将会部署AIOps平台,进行数字化转型。 如何分层构建智能运维体系: 报告介绍了擎创科技的智能运维体系架构,包括运营决策层、运维应用层、数据治理层。具体架构如下: - 运营决策层:包括知识图谱、运营大屏、系统画像。 - 运维应用层:包括异构第三方应用、告警解析中心、指标解析中心、日志解析中心、容量分析中心、事件分析、根因定位、异常检测、客量预测。 - 数据治理层:包括流式处理、算法处理、运维大数据处理、Data lake、APIs、Agents(指标,事件,日志)。 擎创科技的产品组合包括夏洛克AIOps智慧运营平台,以全局运营视角解读IT运维,整合告警事件、性能指标、日志和容量等多维数据,在AI算法平台的支撑下实现包括精准告警、异常检测、根因定位和容量分析等场景,助力企业数字化业务高效、稳定和顺畅运行,并能通过数据价值的提炼分析优化运营决策,彰显运维对业务的影响力。
循序渐进的智能运维场景化构建模式: 报告提出了智能运维建设的原则和路径,包括三个原则和六步走: - 三个原则:从自身运维出发、补足监控手段不足、提升实时性数据处理能力。 - 六步走: 1. 集中监控智能化改造 2. 指标监控智能化改造 3. 日志智能异常检测 4. 根因分析和定位 5. 智能故障排查 6. 故障自愈
案例和价值分享: 报告通过具体案例展示了智能运维的价值,包括: - 异常发现:通过智能化手段快速发现异常。 - 根因定位:精准定位问题根因,减少排查时间。 - 运营分析:基于数据进行运营分析,优化决策。 - 持续治理:持续提升数据质量,优化运维流程。
具体案例包括: - 集中监控的智能化:更迅捷地帮助客户发现异常。 - 更有效的诊断问题根因:通过智能化手段快速定位问题根因。 - 更业务导向的运营分析和决策:基于数据进行业务导向的运营分析和决策。 - 更持续有力的提升数据质量:通过持续治理提升数据质量,优化运维流程。
本文为智能运维的建设路径与最佳实践提供了全面的分析,展示了如何通过分层构建智能运维体系、循序渐进的场景化构建模式,提升运维效率,降低运维成本,为其他企业提供了可借鉴的实践路径。
|