×

扫描二维码登录本站

标签: 暂无标签
粘贴上传202501101510583858..png








本文是关于云主机无人值守和自助服务的实战案例分享,由XX的高级技术专家滕圣波(云普)在GOPS全球运维大会2020深圳站上进行演讲。报告从为什么需要无人值守、无人值守的目标靠自助服务来实现、自助服务之智能诊断、自助服务之自动化修复、背后的AI与数据能力五个方面,详细介绍了云主机无人值守和自助服务的实践和经验。

为什么需要无人值守:
报告首先指出,运维是一种服务,服务客户是使用基础设施的业务团队。云计算IAAS是一种运维服务,服务客户是使用云的开发和运维团队。随着云计算的发展,避免规模上升带来的客户侧运维成本的线性上升成为重要需求。当前客服现状是重人力投入,客户的痛点包括运维成本高、响应时间长、隐私泄露风险等。

无人值守的目标靠自助服务来实现:
报告提出,IAAS运维的拆分包括库存、资源保障、调度、冷热迁移、虚拟化、块存储、网络、机房、物理设备等基础设施,以及上层管控、基础产品、服务侧运维(用户不可见运维)、事件监控、客户服务、工单反应、扩容、重启、修改IP、资源编排ROS、运维编排OOS等客户侧运维(用户可见运维)。广义的自助服务包括诊断、修复、推荐,自助服务水平是云厂商的核心竞争力,覆盖80% ECS常见问题,解决周期从几小时缩短至分钟级,无需客服人工参与,无隐私泄露风险,AI+数据,越来越精准的问题诊断和修复。

自助服务之智能诊断:
报告详细介绍了云服务器(ECS)实例的智能诊断,包括磁盘扩容未生效、实例性能异常、实例无法启动/停止、实例无法远程访问等问题。一键开启ECS健康诊断,涵盖ECS服务问题、虚拟化异常、底层物理机故障、实例配置问题、磁盘问题、网络问题、Guest OS问题等。ECS诊断能力一览表展示了具体诊断能力,ECS智能诊断Demo展示了诊断结果。

自助服务之自动化修复:
报告介绍了ECS实例自动化修复,包括ECS修复能力一览表,展示了具体修复能力。修复能力的透明合规包括自动化修复、运维编排服务OOS提供自动化引擎、云助手命令提供GuestOS内的执行能力、一切修复逻辑可见、OOS公共模板和云助手公共命令代码开源、一切修复操作可回滚、镜像、快照、数据备份、一切记录可审计、阿里云操作审计ActionTrail、一切权限可控、阿里云RAM角色控制。智能诊断修复的Demo展示了具体修复过程。

自助服务背后的AI与数据能力:
报告最后探讨了诊断修复背后的AI和数据能力,包括数据采集、数据清洗、数据分析、数据模型、特征分类、预测和推荐、行为分析、专家经验、决策树、客户画像、态势感知、根因分析、异常诊断、自动修复、优化推荐等。AI驱动的自助服务架构和AI驱动的异常处理展示了具体应用。AI举例包括实时内存异常感知、准确率70%以上、实时预测链路延时控制在100s以内、内存异常原始数据、内存异常数据、异常特征、实时预测模型、投票模型、预测数据、主动运维、模型效果分析、宕机事实验证。AI举例:诊断决策树展示了具体决策过程。背后的数据包括监控、特征、事件通知、运维动作、查询分析、分类、格式标准化、可视化、物理机数据、虚拟化数据、网络数据、控制面数据、GuestOS内数据、实时数据、准实时数据、离线数据、数据处理、数据采集。数据采集部分提到,阿里云ECS近两年持续投入构建异常宕机数据集,未来计划演进成为XX集团在异常预测上的“ImageNet数据集”并开源,为异常预测在业内的发展贡献更大的价值。

本文为云主机无人值守和自助服务提供了宝贵的实践经验,展示了如何通过智能诊断、自动化修复、AI与数据能力,提升运维效率,降低运维成本,为其他企业提供了可借鉴的实践路径。


IT运维管理:ITIL先锋论坛—云主机无人值守和自助服务案例.pdf (5.45 MB, 下载次数: 0)





上一篇:云计算对IT运维的影响 (IT运维管理)
下一篇:智能运维的算法和场景 (IT运维管理)
slbenben

写了 1759 篇文章,拥有财富 10741,被 9 人关注

您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies

成为第一个吐槽的人

Powered by ITIL  © 2001-2025
返回顶部