本文是关于某金融APP稳定性IT运维监控经验的分享报告,由国内最大的数字化时代IT服务管理交流社区ITIL先锋论坛提供。报告从蚂蚁客户端可观测体系介绍、客户端可观测技术难点、客户端可观测核心技术分享、开源与技术演进四个方面,详细介绍了该金融APP在运维监控方面的实践和经验。
蚂蚁客户端可观测体系介绍: 报告首先介绍了客户端的常见表现形式和技术发展趋势,指出客户端架构日益复杂化,用户体验成为用户价值传递的最后一站。客户端从瘦客户端向富客户端演进,端到端全链路全栈监控成为可观测的缺失一环。客户端平台化(如微信、支付宝小程序)使得真实环境用户行为与体验的分析变得重要,解决了单一环境测试的盲区。
客户端整体目标观测覆盖介绍中,涵盖了观测、告警、分析、质量洞察、平台开放、高可用保障等多个方面,涉及App存储、小程序、支付、直播、版本发布、App性能等多个业务场景。客户端运维保障合作团队与用户分析部分,展示了对接上层业务平台系统、用户分析、支付宝App、小程序质量洞察平台、客户端发布平台、质量保障与运维、行业保障平台、客户端高可用保障平台等多个合作团队和用户分析工具。
客户端可观测技术难点: 报告指出,客户端可观测技术难点与业界类似,主要涉及Metrics、Logging、Tracing三个方面。客户端的数据特点包括杂、乱、多,具体表现为: - Trace:客户端内部Trace链路价值低于服务端,客户端Trace和服务端Trace之间基本割裂。 - 日志:设备量级巨大,客户端日志体量大,需要大量采样、还原等操作。App长期历史版本共存,日志格式和App版本绑定,处理困难。 - Metric:App长期历史版本共存,Metric内容和语义历史负债累累。数据维度爆炸,需要将各种变化因素都打到tag中,维度组合过多。 客户端的可观测业务诉求包括用户自定义支持、实时性、场景多样、海量异常设备洞察、深度下钻、客户端监控与观测业务场景覆盖、合作开放、海量日志等。技术问题归纳为海量数据处理、水平伸缩架构、维度(Tag)爆炸与多维分析、采集与埋点规范等。
客户端可观测核心技术分享: 报告详细介绍了客户端可观测核心技术的整体架构,包括维度服务、智能告警、数据开放服务、观测产品、洞察分析等。运行时架构涉及registry、scheduler、预警计算、定时生成任务、采集客户端、数据清洗+缓存、Spark计算、分析型时序数据库CeresDB、服务API、DimService等组件。
解决方案部分,报告重点介绍了分析型时序数据库CeresDB,包括数据存储结构、计算存储分离与弹性架构、查询性能优化等方面。CeresDB支持海量时间线场景下的数据分析能力,提供列式存储,无需倒排索引即可查询,依赖剪枝和高效的Scan加速分析查询。CeresDB还支持分区表、存算分离特性、多级缓存层次的构建,以及性能一致性优化。
开源与技术演进: 报告最后提到开源与技术演进,强调从开源中汲取养分,同时将蚂蚁在可观测领域的所有技术贡献给开源社区,共同创造价值。介绍了两个项目:高性能云原生时序数据库和一站式智能可观测平台。
本文为金融APP的稳定性IT运维监控提供了宝贵的实践经验,展示了如何通过构建客户端可观测体系,解决技术难点,优化核心技术,实现开源与技术演进,提升系统的稳定性和用户体验。
|