×

扫描二维码登录本站

标签: 暂无标签
粘贴上传202501101422462881..png





本文是关于某金融APP稳定性IT运维监控经验的分享报告,由国内最大的数字化时代IT服务管理交流社区ITIL先锋论坛提供。报告从蚂蚁客户端可观测体系介绍、客户端可观测技术难点、客户端可观测核心技术分享、开源与技术演进四个方面,详细介绍了该金融APP在运维监控方面的实践和经验。

蚂蚁客户端可观测体系介绍:
报告首先介绍了客户端的常见表现形式和技术发展趋势,指出客户端架构日益复杂化,用户体验成为用户价值传递的最后一站。客户端从瘦客户端向富客户端演进,端到端全链路全栈监控成为可观测的缺失一环。客户端平台化(如微信、支付宝小程序)使得真实环境用户行为与体验的分析变得重要,解决了单一环境测试的盲区。

客户端整体目标观测覆盖介绍中,涵盖了观测、告警、分析、质量洞察、平台开放、高可用保障等多个方面,涉及App存储、小程序、支付、直播、版本发布、App性能等多个业务场景。客户端运维保障合作团队与用户分析部分,展示了对接上层业务平台系统、用户分析、支付宝App、小程序质量洞察平台、客户端发布平台、质量保障与运维、行业保障平台、客户端高可用保障平台等多个合作团队和用户分析工具。

客户端可观测技术难点:
报告指出,客户端可观测技术难点与业界类似,主要涉及Metrics、Logging、Tracing三个方面。客户端的数据特点包括杂、乱、多,具体表现为:
- Trace:客户端内部Trace链路价值低于服务端,客户端Trace和服务端Trace之间基本割裂。
- 日志:设备量级巨大,客户端日志体量大,需要大量采样、还原等操作。App长期历史版本共存,日志格式和App版本绑定,处理困难。
- Metric:App长期历史版本共存,Metric内容和语义历史负债累累。数据维度爆炸,需要将各种变化因素都打到tag中,维度组合过多。
客户端的可观测业务诉求包括用户自定义支持、实时性、场景多样、海量异常设备洞察、深度下钻、客户端监控与观测业务场景覆盖、合作开放、海量日志等。技术问题归纳为海量数据处理、水平伸缩架构、维度(Tag)爆炸与多维分析、采集与埋点规范等。

客户端可观测核心技术分享:
报告详细介绍了客户端可观测核心技术的整体架构,包括维度服务、智能告警、数据开放服务、观测产品、洞察分析等。运行时架构涉及registry、scheduler、预警计算、定时生成任务、采集客户端、数据清洗+缓存、Spark计算、分析型时序数据库CeresDB、服务API、DimService等组件。

解决方案部分,报告重点介绍了分析型时序数据库CeresDB,包括数据存储结构、计算存储分离与弹性架构、查询性能优化等方面。CeresDB支持海量时间线场景下的数据分析能力,提供列式存储,无需倒排索引即可查询,依赖剪枝和高效的Scan加速分析查询。CeresDB还支持分区表、存算分离特性、多级缓存层次的构建,以及性能一致性优化。

开源与技术演进:
报告最后提到开源与技术演进,强调从开源中汲取养分,同时将蚂蚁在可观测领域的所有技术贡献给开源社区,共同创造价值。介绍了两个项目:高性能云原生时序数据库和一站式智能可观测平台。

本文为金融APP的稳定性IT运维监控提供了宝贵的实践经验,展示了如何通过构建客户端可观测体系,解决技术难点,优化核心技术,实现开源与技术演进,提升系统的稳定性和用户体验。

IT运维管理:ITIL先锋论坛—某金融APP稳定性IT运维监控经验.pdf (7.15 MB, 下载次数: 0)





上一篇:某互联网公司云原生大数据运维管理经验 (IT运维管理)
下一篇:某企业的低代码和DevOps融合创新 (IT运维管理)
slbenben

写了 1759 篇文章,拥有财富 10741,被 9 人关注

您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies

成为第一个吐槽的人

Powered by ITIL  © 2001-2025
返回顶部