本文是关于DevOps在企业运维中带来的改变与实践的报告,由解决方案架构师在GOPS全球运维大会2020·深圳站分享。报告从行业现状、建设方案、案例分享三个方面,详细介绍了DevOps在企业运维中的应用和实践。
行业现状: 报告首先介绍了DevOps的典型需求,包括通过敏捷快速迭代实现快速交付成果、及时验证价值和响应市场变化,通过端到端的高度自动化减少非必要支撑工作,提升研发和交付效率,降低成本,通过一系列标准和规范的推行和平台化落地提升开发质量和效率,通过度量分析实现研发进度、质量、风险、投入的实时可见,可及时调整优化。 DevOps期望中对于Ops的关注点包括产品质量、交付效率、客户满意度、研发效率、项目可见度、过程改进、交付业务价值、项目可预测性等。报告引用了《中国DevOps现状调查报告(2019年)》的数据,展示了这些关注点的重要性。
建设方案: 报告提出了DevOps整体建设思路,包括咨询、产品、实施三个阶段,涵盖了流程、平台&工具、角色等方面。具体建设方案包括: - 咨询:包括产品立项、应用设计、回顾阶段等。 - 产品:包括产品主管、产品经理、开发经理、开发人员、测试人员、应用运维人员、云运维人员、云运营人员、架构师、DBA等角色。 - 实施:包括《敏捷开发过程指南》、《Sprint估算指南》、《Sprint计划会议指南》、《Sprint评审会议指南》、《Sprint回顾会议指南》、《用户故事指南》、《功能估算指南》、《需求分解指南》、《微服务业务设计指南》、《代码评审指南》、《Git分支管理规范》、《微服务开发规范》、《发布规范》、《数据库设计规范》、《服务接口定义》等规范。 - 度量分析:包括进度分析、质量分析、效率分析、人员分析等。 - 平台功能:包括项目设置、模块配置、流程配置、成员管理、权限配置、通用配置、项目协同、需求管理、任务管理、缺陷管理、敏捷看板、流程管理、代码管理、代码仓库、代码提交、代码合并、凭据管理、分支策略、制品管理、制品上传、制品下载、制品查询、制品扫描、制品同步、流水线、编排、执行、日志、策略、模板、测试管理、测试用例、测试计划、测试执行、自动化测试、测试报告、环境和发布、容器发布、虚机应用发布、多环境管理、资源对接、流程对接等。
落地实施路径: 报告提出了Ops+Dev整合的落地实施路径,包括持续优化增强、应用发布自动化、变更管理自动化、IaaS和中间件平台、敏捷开发管理、自动化流水线、度量、容器化等。具体实施路径包括: - 参考实施路径1:某券商的敏捷开发管理、自动化流水线、度量、容器化。 - 参考实施路径2:某股份制银行的敏捷开发管理、配置管理和流水线、测试自动化。 - 参考实施路径3:博云的DevOps实践。
OPS痛点及解决方案: 报告指出OPS面临的痛点,包括应用打包、部署、监控、故障处理、资源管理、流程审批各自独立,难以标准化,导致操作分散,带来了大量的协调成本。解决方案包括建设“统一应用管理平台”,以标准化/自动化为基础,从应用视角整合各类应用管理能力,实现减少管理成本、提升稳定性、降低资源成本的目标。
IT运维转型趋势: 报告指出IT运维转型的趋势是从工具化/流程化到服务化/集成化。服务化以应用为中心,实现随需交付,集成化实现流程对接、简化与自动化协同。
统一应用管理平台的定位与落地措施: 报告介绍了统一应用管理平台的定位与落地措施,包括目标、用户群体与收益、落地保障、功能架构等。具体措施包括: - 目标:实现部署发布上线的高度自动化,提升稳定性,基于准确数据进行精细化运营,降低成本。 - 用户群体与收益:开发测试人员、应用运维人员、管理者等。 - 落地保障:组织、机制、工具等方面的支持。 - 功能架构:包括系统/应用入口、CICD流水线、组织架构/应用视图、多环境、全局检索、权限、规范落地、部署联动、制品管理、大并发流水线、资源申请/使用/管理、数据库资源、中间件资源、其它资源、X86虚拟机资源、自动部署、配置管理、分级发布、变更优化、规范梳理落地、可观测性、监控整合、日志整合、变更整合、系统架构展现、运营、稳定性评估、效率评估、成本度量分析等。
案例分享: 报告分享了某大型股份制银行的应用管理现状,包括痛点、挑战、业务需求提出、架构设计、资源申请、代码实现、运维、上线投产、UAT、ST等。具体痛点包括缺乏统一包规范和配置规范、不同环境和类型的资源需要独立申请、效率低易出错、资源的配置信息管理困难、存在安全隐患、需要为每一个服务不同环境提供不同的配置、测试环境部署效率可以提高、上线时间长、生产环境与开发测试环境不一致、缺少服务统一立体式的监控、架构的全局视角、如何让开发人员能够一站式服务申请、如何整合各个不同的应用管理平台提供系统视角的跨平台的运维监控能力、如何实现应用的统一配置管理、如何清晰展现资源服务的关系、业务人员、开发人员、测试人员、运维人员如何解决不同环境的参数配置问题、资源准备、应用监控、资源和服务的关系无法跟踪、导致混用和浪费、稳定性风险高、缺失统一、安全的运维入口、需要多个平台切换完成环境配置、不同应用使用不同的平台做部署和管理、如何快速部署所有系统和服务、没有系统/应用视角的多环境视图、如何从系统/服务视角统一战线多环境视图、架构缺少对服务全生命周期的考虑、架构完成后服务的可运维性、资源的生命周期和服务的生命周期耦合重、不同团队和角色的资源混用和权责不清晰、带来隐患、缺少服务视角运维、导致单个主机变化带来的运维成本高、良好的分级和灰度发布、从而保障可靠性、上线导致回退时有发生、如何控制不同部门人员和角色的权限、稳定性保障、运维效率提升等。
平台主要建设内容与定位: 报告介绍了平台的主要建设内容与定位,包括平台定位于应用全局和全生命周期管理平台、DevOps协同工作平台、CMDB(元数据平台)、统一应用管理平台、应用架构设计、应用部署、架构守护、日志采集展示、应用业务监控告警、资源申请、业务平台1、运行时环境PAAS平台、业务平台2、自动运维工具、测试平台、应用管理自动化统一门户、资源层虚拟机平台、物理机、容器等。
收益: 报告总结了平台建设的收益,包括环境一致性管理、非容器和容器统一应用管理模型、降成本、提升效率和稳定性等。具体收益包括: - 环境一致性管理:实现代码仓库、开发环境、测试环境、生产环境的应用系统配置一致性管理、资源配置一致性管理。 - 非容器和容器统一应用管理模型:基于BUILD/SHIP/RUN标准操作,统一容器和非容器管理模型。 - 降成本、提升效率和稳定性:通过应用发布入口的统一,实现准确的资源使用统计,识别闲置资源,降低资源成本;通过精细化资源运营,对资源使用情况进行度量,为资源增加和回收提供决策依据,降低资源成本。
本文为DevOps在企业运维中的应用提供了宝贵的实践经验,展示了如何通过DevOps实践提升运维效率、降低成本、提升稳定性,为其他企业提供了可借鉴的实践路径。
|