本文由国内最大的数字化时代IT服务管理交流社区ITIL先锋论坛提供,是一份关于某互联网公司云原生大数据运维管理经验的分享报告。报告从业务现状与背景介绍、架构简介、环境管理与组件服务、统一的日志监控告警四个方面,详细介绍了该公司在云原生大数据运维管理方面的实践和经验。
业务现状与背景介绍: 报告指出,大数据领域的工作通常需要部署一套完整的生产环境,涉及众多组件的配合和复杂的依赖条件管理,导致移植困难和环境耦合严重。为应对这些挑战,公司进行了云原生演进,追求无服务状态感知、极致的弹性伸缩、快速的故障转移等特性。具体演进措施包括架构微服务化、应用容器化、基础设施不可变和声明式API的使用,以提高部署的简单性、可靠性和一致性,减少故障点,使环境更加稳定,功能变更与演进更加方便。
架构简介: 云原生上的运维实践强调了伸缩性好、移植性强、环境感知弱、资源占用低和稳定性高的特点。所有运维相关的功能必须能够跟随集群规模进行伸缩,要求进行可插拨式设计,快速对接用户自有组件,适应各种复杂环境。云原生大数据功能架构图展示了三大平台一大支撑体系,包括元数据管理、用户与权限管理、运维管理平台、任务开发与调度、平台服务层、生态整合服务、核心引擎层、统一数据存储、资源调度层和环境管理等组成部分。
环境管理与组件服务: 环境管理方面,按功能职责将整个环境分成控制面、系统面、数据面三块,分别负责环境管控、主体业务运行和引擎层的运行资源支持。组件服务则按部署区域分为系统级、集群级、租户级、项目级四类,分别承载业务管控逻辑、采集支撑业务数据、租户独占业务支撑和项目相关业务组件。此外,还介绍了组件服务的Helm Chart、定制化改进、磁盘管理的问题分析和统一调度方法。
统一的日志监控告警: 日志演进方向着重于业务隔离、高效采集、公平分配和安全可靠。介绍了日志数据链路,包括Collector、Log Proxy、ElasticSearch、Filebeat等组件,以及云日志服务和日志搜索功能。告警方面,展示了开源方案和流程概览,包括创建Rule、写入数据库、同步规则、查询告警事件、通知模块等环节。此外,还提到了动态消息模板、通知方式插件化、定时巡检、异常消息重发和失败消息生成告警等功能。监控方面,分析了痛点,如数据存储性能不足、可用性低、整合度低等,并介绍了监控架构概览、性能优化、功能优势等。
本文为互联网公司云原生大数据运维管理提供了宝贵的实践经验,展示了如何通过云原生技术实现运维管理的优化和提升,增强系统的稳定性和可靠性,提高运维效率。
|