本文是关于智能运维中全栈监控体系的建设方案的演讲资料,主要探讨了在AIOps(人工智能运维)背景下,如何构建统一的监控体系,以提升IT运维的效率和效果。文档内容涵盖了IT运维的发展趋势、AIOps的能力建设体系、监控体系的建设实践以及擎创科技的智能运维解决方案等多个方面。
IT运维发展趋势 文档首先解读了企业IT运维的趋势,强调了根因定位、交易串联分析、容量规划、趋势预测等关键能力的重要性。随着IT系统的复杂性增加,运维数据治理平台和统一运维平台成为趋势,运维大数据态势感知和统一监控平台的需求日益增长。
AIOps发展的三个阶段 AIOps的发展分为三个阶段:数字化运维、智能化运维和智慧化运营。每个阶段的核心目标都是以用户为中心,通过技术手段提升运维的效率和质量。
AIOps能力建设体系——“五个统一” 文档提出了AIOps能力建设体系的“五个统一”:统一数据、统一告警、统一分析、统一决策和统一监控。这五个方面共同构建了AIOps的核心能力,通过精确结论输出、夯实平台基础、以业务为视角、集中处置问题和全景可观测性,实现智能化运维。
运维监控的诉求演变 随着技术的发展,运维监控的诉求从专业领域竖井式建设向一体化监控转变。监控对象从硬件、网络、存储等基础架构扩展到应用、服务、交易等业务层面。监控工具的数字化转型成为打破数据孤岛的关键,通过统一监控和告警,实现数据的全面关联。
监控体系建设实践 文档详细介绍了监控体系建设的实践,包括一体化监控总览、应用监控墙、应用一体化视图、分支机构监控墙等。这些实践通过不同的视角(如应用视角、分支机构视角、专业领域视角和云原生视角)提供全面的监控能力。监控数据的分层分域治理也是关键,通过运维大数据平台提供数据存储与算力支撑,确保数据的质量和完整性。
监控应急场景 在多系统故障源分析方面,文档展示了如何通过一体化平台功能进行故障源应用的确认,包括调用链关系、异常先后关系、网络设备、物理服务器、存储和网络线路等的分析。
监控质量评估漏斗 文档提出了监控质量评估漏斗的概念,包括指标体系规划、数据规划、采集质量、监控规则和告警准确性等方面。这些评估指标确保监控体系的有效性和可靠性。
擎创科技的智能运维解决方案 文档最后介绍了擎创科技的智能运维解决方案,包括公司简介、夏洛克AIOps平台架构、信创适配和生态合作、行业覆盖和主要客户以及全国服务分布。擎创科技作为智能运维的领跑者,提供了全面的信创适配支持,与多个行业龙头客户合作,并在金融大数据智能运维领域取得了显著成就。
本文提供了一个全面的智能运维中全栈监控体系的建设方案,涵盖了从趋势分析到具体实践的各个方面。通过实施这些方案,企业可以显著提升IT运维的效率和质量,降低运维成本,提高用户体验。擎创科技的实践表明,构建一个有效的监控体系是确保复杂IT系统稳定运行的关键。
|