现在大家都在讲智能化运维,自动化运维已经逐渐少有提及。这是一个理念和技术演进的正常过程,自动化运维已经从一种思潮和探索正在转变为落地和使用。越来越多企业已经开始落地自动化运维,在真正把步子迈出去的时候,发现自动化运维原来并不是一件复杂的工程,很多企业其实早就开始建设了。 说到这里,就要从运维的本原探讨。我们这里把运维的词义进行狭义的思考,其实就是对服务器及应用进行维护管理,那么所谓自动化运维就是把维护管理的动作规范化、批量化、自动化。如果从这个角度去考虑,很多企业很早就建设了自动化运维工具,如微软补丁管理WSUS、微软SCO等工具,只是过去我们并没有意识到而已。 既然如此,又是什么原因导致自动化运维突然火热起来了呢,作者认为如下两个原因: 随着运维规模扩大,运维工具也大幅增加,运维工具本身的管理成为必须面对的问题,需要统一集中的运维平台。 互联网公司作为运维技术先驱力量,在运维中应用了大数据、人工智能等技术,将运维工作引向了新的高度。 所以,从过去分散状态的自动化运维建设正在转变为以平台为基础的建设模式,平台能力主要体现在: 平台具备广泛的兼容性,可纳管全面的IT设备和系统 具备与现有运维工具集成的能力,最过往投资保护 在平台上可灵活扩展到更多运维场景,而不增加平台维护成本 平台具备向数据化、智能化演进的可能性,满足长期建设要求 进而,在很多企业中自动化运维建设分为两层建设:统一先进的自动化运维平台和持续平台上构建运维场景。我们下面分别进行探讨。
一、运维平台建设
不同规模公司在平台建设上思路不同,总结来说有如下两种模式:
1、自研平台或基于开源改造
大型互联网公司和巨头企业多采用这种模型,专门组织一个部门开展自动化运维平台建设。这类公司在一定程度上可以保证人员的稳定性和专业性,其业务收益也可以支撑长期的的高昂成本投入。 这种模式的优点是具备完全的自主性,在满足自身业务的同时,也可以将自研的技术商业化,变IT成本部门为IT利润部门。
缺点也是显而易见的,如此大投入、长周期,深度的技术沉淀,是绝大多数企业无法承受的。同时也需要面对失败的风险,所谓“一荣俱荣,一损俱损”。
2、引入上述公司的产品
更多的公司采用这种建设模式,从外部引入经过考验的成熟平台,如腾讯的蓝鲸智云。这类产品往往是经过自身业务多年沉淀出来的解决方案,或者代表着先进性,或者代表着行业特点。这类解决方案有区别与传统厂商产品,是经过真实生产环境淬炼的解决方案,通常具备很强的生命力。通过平台的快速导入,既可以快速缩短自身与前沿企业的距离,同时也可以合理控制成本投入。
其缺点主要体现在自主性上,这就要看选用产品的开放程度了。
二、持续构建运维场景
运维场景与运维平台有很大不同之处,运维场景是多样化的、个性化的、是无法穷举的。话虽如此,根据不同场景的特点仍然可以分为操作类、展示类、决策类。这里着重分析各类运维场景的特点和构建方法。
1、操作类场景 在自动化运维建设前期此类场景最多,往往能占比到60%~70%。这类场景明显的特点是可以手册化,即可将运维操作步骤一一写出来,并按照某种逻辑顺序按步执行皆可完成。诸如版本发布、资源创建、权限开通等。有些操作流程可能很长,而大多数操作都是短流程。在梳理这类运维场景时,可以参考以下原则: 操作原子复用原则 明确输入输出原则 原子功能内聚原则 流程节点解耦原则 端到端全覆盖原则 在建设前期可不必追求流程设计的优雅性,能确保流程的正确性和稳定性,流程节点多一些并无关系,关键是可以实现端到端的全流程自动化操作。
2、展示类场景
这类场景可以在运维工作中占比到20%~30%,在面向应用的运维中应用较多,在实现逻辑上可以分为三层:采集、处理、展示。
数据采集是相对复杂的工作,从实现难度可分为:平台数据、脚本采集和采集器采集;
数据处理通常根据具体业务场景具体设计,大多数逻辑是较为简单的逻辑运算:加、减、或、与、非等;
数据展示是相对容易的内容,运维常用展示形式是可以穷举的,如饼图、折线图、柱形图等;
在建设前期可选择简单的场景建设,逐步培养人员运维开发能力,逐步过渡实现复杂场景。
3、决策类场景 决策是自动化运维进阶需求,往往需要用到大数据、机器学习等前言技术,我们后续开专题进行讨论。
|