未来之星 发表于 2023-12-25 12:33:05

《中国智能运维实践年度报告(2022-2023)》之实践案例分享-平安银行


《中国智能运维实践年度报告(2022-2023)》之实践案例分享-平安银行

平安银行的运维数据治理实践 定目标运维数据治理的目标是优化运维管理过程,提升决策能力,降低风险,改善客户体验,并最大程度地发挥数据的价值。但运维数据不同于业务数据,业务数据能通过业务活动梳理出关键指标,定义指标的价值,从而开展数据治理。凭借过往的配置数据治理经验,我们深知,完全遵从DAAM的一套机制,要落地的时效和执行难度上困难重重。因此,我们选择结合行业内优秀的实践经验,从运维场景出发,以帮助各技术领域实现数字化运营为目的,以运维场景为抓手,“以用促治”,逐一治理数据链上的数据,持续完善数据标准。
分阶段我行在运维数据治理的规划上主要分为三个阶段和四个主要能力域,但这些能力域并非我行所有的能力域。我们认为,图中的能力是符合我行未来三年云原生转型中重要的能力元素,也是能迅速看到价值的场景。

1)数字化运维阶段:主要通过大量数据可视化的能力,帮助各能力域能清晰地看到当前的现状,以运营报表的方式提供能力域的日常运营评估、治理工作的开展。这个阶段的重点在于建立重点数据链上的数据生命周期,快速看到问题,针对看到的数据问题,建立数据标准和指标,构建基础的数据管理能力,比如数据采集,数据存储,数据加工等。
2)智能化运营阶段:在这个阶段,数据的能力和价值得到了提升,已经不再全部是线下周期性的治理工作了,数据需要对日常的运营工作做出推荐,虽然最后的决策还是需要专家进行确认,但已经大大缩小了专家需要处理的数据量,仅凭借着给出的指标现象进行最后的决策。本阶段对数据质量提出了更高的要求,所以在这个阶段应该会存在一段较长的时间来反复的验证和治理工作。除此之外,这个阶段还能帮助补充日常管理规范的缺失。
3)智慧化运营阶段:在这个阶段的能力域已经相对是比较成熟了,有些能力域的数据链相对集中干净,或早期建设规划得较好,那这个领域就可以更快地进入到这个阶段,享受数据带来的便捷能力了。这个阶段主要以自动化决策为主,决策的场景也是逐步地由智能化转向智慧化,比如简单的故障自愈、异常变更拦截等场景都可以在较短的时间内落地。
定义IT架构全景标准化模型明确了可以落地的小目标后,还需要建立一个闭环机制,刚开始可能还不能称之为机制,因为不完善,可能存在缺陷,但很重要,是一个可以让一个具体场景落地的方法。作为一个敏捷团队,我们可以接受不完美但持续优化的机制。在这个机制的每个点上,都明确定义了角色、行为、目标、产出物。从下图中我们可以看到,整个机制运行过程中,也是在不断地补充建立规范,人员角色也都是涵盖在了数据治理的虚拟团队下。

建系统要让机制能更好的落地,提高效率,减少沟通成本,一定会需要系统的配合,更何况数据的诸多标准定义,都是需要系统来支撑的。因此,我行自主研发了运维数据中台,一站式解决数据定义、数据采集、数据清洗、数据存储、数据计算、数据服务、质量控制以及资产评估。
一体化建模可以保证数据在转义过程中不会丢失 我行设计的一体化建模能力,主要是针对源系统的数据模型在自动转换到逻辑层模型(即带有业务含义定义的模型)的映射关系的建立,通过一次定义、多次映射,实现在多个层次模型中的关系或血缘不会因为认知的错误而产生偏差。又能再不影响源系统情况下做到分级管理。
质量门禁设置的越前越好,质量治理不应该由中台来落地 质量门禁的用处是将质量差的数据拦截在外面,以保证在仓内的数据计算出来的结果是符合预期的,也方便排查追溯,但如果数据质量太差,导致进到仓内的数据缺失,这对数据资产来说就是价值过低的,所以我们在质量门禁中进行了多个维度的数据评估。完整性:对于源系统提取的数据每个字段是否都有符合模型的值。一致性:需要定期和源系统进行数据对账,才能将确保一致性。准确性:同时包含了数据的技术定义,即字段类型,枚举值是否符合模型定义,还有对于数据的值域准确性,对于值域准确性,我们通过常识+规则+人工审核的方式来判定数据的内容准确性,通过对源系统上报的数据的指标评估,持续敦促对应领域系统完成数据治理。
建立数据资产目录,对数据的价值评估和管理应该围绕资产展开 数据资产是数据使用的最小单元,我们会针对资产进行定义、评估、权限、订阅等一系列的管理动作,资产可以在使用场景中挖掘出来,颗粒度不要求,可以是一个场景就是一个资产,也可以是多个资产组合成一个场景,前期进行拆分复用的价值小于投入的成本。可以通过更多的沉淀,来提炼更有复用价值的资产。


看指标运维数据资产是我们评估数据价值的最小单元,我们为数据资产建立了四个维度的指标:敢用,能用,会用,好用。敢用(Daring to Use):这个指标关注的是在运维数据治理过程中是否有勇气使用新的数据源、数据类型和数据管理方式。能力域包括接受和适应运行态数据的变化,确定数据的归属和治理边界,以及建立数据采集、存储和管理的能力。 能用(Able to Use):这个指标关注的是在运维数据治理过程中是否具备使用运行态数据的能力。能力域包括建立数据标准,评估数据的完整性和准确性,调整数据架构以适应业务系统,以及提高数据采集的复杂度。 会用(Know How to Use):这个指标关注的是在运维数据治理过程中是否具备运用运行态数据进行决策和预测的能力。能力域包括建立数据可视化和数据分析能力,提供运营报表和评估能力域的日常运营,实现智能化运营,以及补充日常管理规范的缺失。 好用(User-Friendly):这个指标关注的是在运维数据治理过程中是否建立了易于使用的数据管理系统和工具。能力域包括建立数据管理规范,确保数据存储的可扩展性、安全性和可靠性,以及解决数据可视化、访问控制和权限管理的挑战。 从数据采集到数据的应用,整个过程中都应该围绕这四个指标进行持续优化。

页: [1]
查看完整版本: 《中国智能运维实践年度报告(2022-2023)》之实践案例分享-平安银行