保障业务的正常运行是IT运维工程师工作内容的重要一环,而在这当中最让运维工程师头疼和措手不及的就是IT故障的处理了。故障处理中最重要的是快速完成问题定位与隔离,最小化业务中断时间和最终客户影响。随着云技术的飞速发展,云和虚拟化技术实现了业务应用的集中式交付,这样需要从最终用户的体验来理解运维对象的性能和状态。业务应用复杂度的增加,传统的按技术种类分离的运维模式越来越不能适应实际需要。
传统的故障管理方式为:
这种“救火式”的被动故障处理能力已经严重拖延了业务开展的后退。勤智自动化故障管理解决方案应运而生。它可以全面、快速、准确的IT设施状态与性能探查;依照预先设置的策略执行自动化告警处理;通过故障快照技术自动获取故障发生时现场和相关情况数据;依据策略告警能够自动触发流程系统向合适人员派发工单;人员的所有处理工作都能够被记录,并后续形成知识、报表、报告等;在进行故障处理时,系统能够自动将故障设施过往的故障情况、处理工单、最近的变更工单等信息归集在一个界面中进行集中化处理。最快速地发现故障并告警、最全面地提供故障相关信息、最准确地通知恰当的处理人员、最全面地记录和使用故障处理信息,确保故障对业务可用性的影响降到最低,这就是该解决方案的最终目标。
IT资源运行状态与性能的自动化探查
勤智自动化故障管理具有整合的探查技术。上百种网络设备,每种设备超过三十个状态与性能指标一一涵盖。并提供了完整的主机操作系统支持,每种系统缺省超过五十个状态与性能指标,自定义脚本技术提供几乎无限的指标扩充能力。标准化的存储系统管理接口,经过轻量级配置与开发可以快速支持几乎全线的存储系统管理,并可提供每系统超过二十个状态与性能指标。实现了一个平台同时支持VMWare、KVM和Hyper-V虚拟化操作系统,通过各虚拟化系统提供的API/SDK,完美呈现P2V(物理到虚拟)的管理逻辑。勤智自动化故障管理可审计代理提供业界最安全也最具有批量可扩展性的管理手段,提供完整的主机操作系统、主流数据库和中间件系统的支持。而且所探查数据全面入库,并最终整合到业务服务管理模块,实现对业务的综合可用性的计算与分析。
IT资源的故障判断与自动化告警策略管理
不同于一个资源对象甚至一个资源对象域仅能设置一个阈值的做法,勤智提供指标级级阈值管理,能够更好地适应用户对资源故障状态的判断需求。勤智运营支撑系统提供按时间段设置资源对象指标阈值的能力,帮助客户实现对业务忙闲时段资源对象的精细化管理。
勤智自动化故障管理具有智能化告警机制:
不同位置的同类资源对象在相同情况下可能的告警状态会出现差异,客户希望告警机制能够非常智能化,能够自动化适应这种情况;
告警机制需要适应客户对大事件量的自动归并和过滤需要,提升告警对客户的真实有效性;
针对不同类型的事件定制不同的事件处理策略,减少无效告警比例,提升资源监控的精准度;
包含重复、互斥、抑制、定额、瞬态等多种策略;
对当前活动事件集合和原始事件,进行压缩,过滤,相关性处理等,产生新的当前活动事件集合。
勤智自动化故障管理平台中,工具的运用贯穿整个故障管理的环节,实现了:精准的故障告警与处理,有效降低了故障恢复时间;较长时期的趋势性数据,提升了主动预防性措施的有效性,降低了故障发生率。
|