×

扫描二维码登录本站

标签: 暂无标签
粘贴上传202501101416567016..png





本文是一份关于某互联网公司IT运维故障分析和智能运维实践经验的分享报告,由国内最大的数字化时代IT服务管理交流社区ITIL先锋论坛提供。报告从运维的趋势、现状和挑战、更好的运维体验以及龙蜥运维SIG(兴趣组)四个方面展开,旨在探讨云原生时代下智能化“零”运维的实现路径,并分享具体的运维实践案例。

运维的趋势:
报告指出,云原生技术的发展正迫使运维向智能化“零”运维转变。在FaaS、Serverless等模式下,开发人员只需关注应用实现,而对运维环境无感知,这给运维工作带来了新的挑战。同时,微服务框架和容器化部署/PaaS的普及,使得运维人员需要对系统有更深入的了解,以应对基础设施的运维工作。

运维的现状和挑战:
目前的运维产品现状包括配置部署管理、系统监控和社区工具等,但这些工具存在开环的执行过程、基于操作系统的数据接口和日记进行采集等问题,需要专业级别的系统运维人员。此外,大量中间件的使用使得问题离根因越来越远,增加了运维的难度。

更好的运维体验:
为了实现更好的运维体验,报告提出了降低应用运维门槛、深度剖析问题成因、智能化告警和监控诊断联动等措施。特别介绍了SysOM(System Operation & Maintenance),这是一个由龙蜥社区系统运维SIG打造的一站式操作系统运维平台,旨在解决业内工具碎片化和门槛高的问题。SysOM 2.0的内存诊断功能和实践场景,包括内存大盘、OOM诊断和Cache分析等,能够帮助用户快速确定内存消耗的应用或容器,分析内存问题,并从系统中直接获取内存的分布和健康状况。

龙蜥运维SIG(兴趣组):
龙蜥运维SIG是龙蜥社区的一个兴趣组,专注于系统运维领域的技术探索和实践。报告中提到了龙蜥大讲堂,这是一个分享运维经验和最佳实践的平台。此外,还介绍了SysOM 2.0的诊断中心功能,包括内存相关诊断功能和调度相关诊断功能,这些功能可以帮助运维人员更深入地了解系统性能和问题所在。

报告还详细介绍了SysOM 2.0的调度负载诊断、调度抖动诊断、存储诊断等功能,这些功能通过诊断系统负载高、进程负载贡献度、系统调度火焰图等,帮助运维人员定位和解决系统性能问题。例如,调度负载诊断可以诊断系统负载高是否对系统的sys利用率、hardirq/softirq和io造成了影响,而调度抖动诊断则可以追踪内核长时间不调度和长关中断的堆栈。

在存储诊断方面,SysOM 2.0提供了IO流量分析、IO延迟分析和IO HANG诊断等功能,这些功能可以帮助运维人员分析IO链路延迟、界定IO HANG问题,并通过提取vring特征来界定磁盘HANG或OSHANG。

本文为IT运维人员提供了一套全面的智能运维解决方案,通过介绍SysOM 2.0的多种诊断功能,展示了如何在云原生时代实现智能化“零”运维,提升运维效率和系统稳定性。


IT运维管理:ITIL先锋论坛—某互联网公司一个IT运维故障分析和智能运维的实践经验.pdf (12.26 MB, 下载次数: 0)






上一篇:某互联网公司混合云大数据SRE实践经验 (IT运维管理)
下一篇:某互联网公司云原生大数据运维管理经验 (IT运维管理)
slbenben

写了 1759 篇文章,拥有财富 10741,被 9 人关注

您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies

成为第一个吐槽的人

Powered by ITIL  © 2001-2025
返回顶部