勤智onecenter强调故障处理对IT业务正常运行的重要性
故障处理是保障业务正常运行的主要活动,最佳的故障处理保障是勤智OneCenter一体化运维服务管理系统的核心,通过全面监管、精准过滤、深入诊断、快速恢复、知识沉淀、持续优化和专业标准七个方面形成故障处理保障机制提供以下价值:(一)、全面监管:站在业务系统的角度对IT基础架构和应用系统进行集中监控,及时发现可能对业务系统造成影响的故障,实现对故障的全面管理。
(1)种类全:基础设施监控覆盖完整的客户IT系统,全面管理企业日益增加的各种IT设备(尤其是异厂商设备、多技术领域支持),比如:服务器、虚拟机、网络、数据库、存储、中间件,应用程序等网络设备应用系统。
(2)方式全:提供现场的、远程的以及云端的监控和管理,通过SNMP、Netflow、Syslog, Trap、SMI、WMI和IP SLA等协议获取数据,通过统一采集处理,对系统实现完整监控。
(3)可扩展性:整合和兼容第三方系统,支持大多数基础架构元素即插即用。
(二)、精准过滤:构建以业务支撑为目标的故障监控处理和分析机制。并非所有“告警”都管理,只管理影响业务的关键事件告警,实现精准定位受影响的业务系统,节省时间。
(1)信息过滤:在全面监测的基础上,可能会产生非常多的告警信息。然而过犹不及,工程师会快速淹没在“海量”事件中。系统需要基于事件策略实现第一层的事件过滤,找到工程师真正需要关注的告警事件。分级别,按照多种组合条件对海量告警信息进行过滤。
(2)信息呈现:通过故障管理策略和告警策略获得的故障信息,以恰当的一体化视图呈现出来,用户能够快速掌握当前的故障态势与详情。
(3)及时反馈:在故障出现时,快速确认并告警,自动或手动派单进行处理。
(三)、深入诊断:内置多种事件解析规则和设备故障快照功能帮助实现及时分析,满足运维的事前监督和事后故障分析。细颗粒度的、多层次的深入诊断,包括状态、性能、指标等。客户能够了解故障的根源,并对症下药,保障业务系统仅受有限影响。
- 根据设备之间的相互关系,CI关系,拓扑, 快照,知识库快速判断出故障设备,故障出现后,根据告警的信息有灵活的策略。
- 故障源定位,找到真正的“病”源。通过故障管理策略和告警策略获得精确的故障根源信息。需要人工介入进行故障根源定位的情况下,系统能够提供逐渐缩小范围的故障定位工作流向导功能,有助于快速恢复故障。
(四)、快速恢复:通过故障的深入诊断和精准定位,采用自动或人工方式按照一定的流程进行快速恢复,使业务影响尽快消失。
(1)自动恢复:对于已知错误或常见故障有明确解决方案的,经过一定程度的配置,系统可以采用自动恢复的方式;
(2)人工恢复:对于需要人工修复的故障,能够快速找到“可用”的资源(工程师和知识)并按照优先级进行处理;
依托规范化的事件处理流程,做到快而不乱。此外,“快”是一个相对的概念,要保障处理速度就要基于SLA管理对故障的处理进度进行有效监控,及时跟进。
(五)、知识沉淀:知识的沉淀主要是知识库中知识的获取、分类和应用三个方面,其目的是保障系统持续有效地运行。
(1)知识获取:在处理故障时,系统按照配置自动记录的故障发生过程,以及故障解决方案都是重要的知识内容。可以通过工具或程序自动化操作的过程形成标准化操作控件,供自动化模块使用,积累知识与经验。
(2)知识分类:为了保证故障处理知识准确,有效和方便调用,基于问题管理找到故障反复发生的根源,杜绝类似故障的重发,需要对故障发生情况和应对方案进行分类,方便知识的应用。
(3)知识应用:数量繁多的故障,很大一部分是相同系统相同/类似故障,不同系统相同/类似故障。当故障发生时,能够搜索知识库,获得类似情况处理的建议。
(六)持续优化:
持续优化的故障处理流程和知识库能够贴合业务系统的发展,更加适应IT系统的变化,持续保障业务。
- 基于问题管理找到故障反复发生的根源,杜绝类似故障的重发;
- 通过变更发布管理严格的风险评估和控制,有效规避不必要的故障发生;
- 基于历史趋势,预测容量变化,找到系统瓶颈,及时扩容或升级;
- 基于人员工作量统计报表和SLA统计报表,找出团队能力瓶颈加以改进,提升故障处理效率或降低因为人员操作问题导致的故障,或者优化流程;
巡检机制的支持,包括巡检内容、范围、标准实施流程的定义;已知错误的临时解决措施需要定期执行的可以定期执行。
(七)、专业标准:故障处理整个过程符合ITIL/ISO20000和ITSS中国标准的。软件遵循标准,提供更好的保障。
- 业界故障处理方法论和算法,拥有专利技术。
- 符合ITIL V3国际规范和ITSS国家标准;标准化的服务流程定义,切合客户实际需要。人员介入的过程完全符合标准化处理流程,处理中违反SLA的情况能够被预先监控并显示出来,具备故障处理过程的升级机制。
谢谢分享! 所谓的快速恢复,吹的有点过头了,但凡安全管理比较严的场景,都不允许这类系统去自动做一些变更操作,再说,技术上也没法实现,毕竟IT系统的复杂度很高。
页:
[1]