本文是关于IT运营智慧化实践方案的报告,由广东的何广柏在COPS2020全球运维大会2020·深圳站分享。报告从云化架构的运营挑战、运营智慧化实践两个方面,详细介绍了IT运营智慧化的实践和探索。
云化架构的运营挑战: 报告首先介绍了云化架构的技术历程,包括企业应用集成、云计算、边缘计算等技术的成熟,推动了智能化应用的发展。传统IOE架构普遍采用平台+应用的模式,架构扩展以纵向为主。云化架构的运营问题与挑战包括: - PAAS模式带来新的故障处理挑战,组件众多,架构差异大,人员能力差异大,处理效率及质量不稳定。 - 开源技术带来新的技能挑战,组件多基于分布式架构,定位问题困难。 - 分布式技术组件带来能力配套挑战,开源组件普遍配套能力不足,不同组件配套工具自成体系,多套分布式环境,升级实施成本高。 - 分布式模式带来新的资源管理挑战,众多大小组件集群,增大运营成本。
运营智慧化实践: 报告详细介绍了运营智慧化的实践方法,包括集约归口、自动化、数据注智、敏捷化、经验固化、AI助力等方面。具体实践包括: - IT运营从分散向集约转变:随着IT系统从烟囱式向云化建设演进,IT运营也从分散向集约转变。SaaS、PaaS、IaaS的云化三层架构需要智慧化的运营手段提高运维人员在资源管理、问题预测、故障处理、运营分析、沟通交互等工作效能。 - 虚拟化云架构的智慧运营手段:通过“标准化、自动化、工具化”的智慧运营手段,提前发现问题、快速处理故障、保障运营质量。具体包括资源管理中心、监控告警中心、运营日志中心、智慧服务中心、数据运营中心、运营分析中心等。 - 资源管理中心:基于CMDB管理平台设备、组件和服务,提供资源的自动化部署,包括集群管理、组件管理、环境管理和自动化部署等。 - 监控告警中心:多视图反映平台设备、组件和应用的健康现状,及时发现并报告异常。主要包括主机设备监控、组件监控、应用监控、告警管理、调用链分析以及大屏展示等功能。 - 运营日志中心:汇聚组件运营日志,提供自助检索及日志分析能力,并为平台门户提供能力。 - 智慧服务中心:提供组件专业管理能力,实现实例管理及专业监控。如数据库服务管理、docker管理等。 - 数据运营中心:多渠道接入,通过知识库、AI机器人、图文识别等,对用户上报问题分析,为系统用户与运营人员提供沟通桥梁。 - 运营分析中心:提供平台组件总体运营状况,提供优化建议。通过资源管理中心,集中管理软硬件资源信息,形成层次拓扑图,为各类运营场景提供基础信息管理服务。
智慧化运营的具体实践: - 自动发现新资源:通过自动发现机制,包括配置库、zookeeper注册中心、网络调用、调用链关系等,实现资源自动发现,助力故障精确定位。 - 集群规模带来资源数据变化:通过CMDB管理,实现扩缩容、高可用切换等操作,自动发现服务,智能识别资源数据。 - 微服务化的调用链监控:通过低损耗、非入侵式的服务调用数据探针,获取业务服务全链路调用信息,实现在线应用运营监控。 - 故障推断:结合基础运营数据,通过图计算技术,以逻辑拓扑为主线生成故障图谱,通过数据分析推断精确故障点。 - 数据智慧化运营分析:通过自动化、智能化的数据运营中心,对分布式数据库实行运行监控与调优分析,避免运维人员频繁操作生产库,减轻数据运维工作。
运维智慧客服: - 多渠道接入:支持微信等多渠道接入,支持人工服务或通过知识库、AI机器人、图文识别等功能,对用户上报问题进行分析,自动生成处理工单提交后端处理。 - AI机器人:提供智能导航、运维知识、语义分析、图文识别等功能,实现快速精准回复,有效代替人工20%。
未来展望与探索方向: 报告最后提出了运维与DEVOPS的结合,以及AI在运维中的应用等未来展望与探索方向。
本文为IT运营智慧化提供了宝贵的实践经验,展示了如何通过集约归口、自动化、数据注智、敏捷化、经验固化、AI助力等方法,提升运维人员的工作效能,实现IT运营的智慧化转型。
|