制造企业IT运维管理实践
学习资料: ITIL培训基地专家讲堂直播 300期视频回放一、引言
近年来,随着各类应用系统建设速度迅猛发展,信息化技术人员的数量、维护能力和知识水平日显不足,在实际工作中只能等到设备及应用系统出现问题造成故障时才进行维护,并且IT设备和信息系统多而复杂关联性日益增强。运维人员有效地降低系统运行的风险,主动的发现并及时解决系统运行故障,这些都给企业IT运维服务管理水平提出了更高的要求,也是当前IT系统运维服务管理普遍面临的巨大挑战。面对如此高的要求和压力,目前的信息化应用平台单靠人工管理已经变得不现实, 因此,通过采取IT运维服务管理系统来辅助信息部门进行半自动化管理,使信息系统更加适应业务持续变化的需求。
二、运维服务与ITIL理念
IT运维服务主要包括基础设施维护服务、系统运行维护服务和系统运营支持服务。基础设施维护服务是指对基础环境、硬件、基础软件的故障诊断和修复等服务。系统运行维护服务是指通过使用监控、服务管理工具等方式,保障系统正常运行的服务。系统运营支持服务是指为提升业务有效性所提供的评估、数据管理、数据分析、业务流程管理等服务。
2O世纪8O年代,英国政府为了提升信息化设备和系统的运行效率,指定当时的英国政府计算机与通信局,研究开发一种方法,用于指导全国政府部门高效、经济地运营信息化设备和系统,结果产生了信息技术基础架构库(Information Technology Infrastruc—ture Library—ITIL)。ITIL供组织内部进行IT服务管理的参考经验,它汇集了IT服务业内的最佳实践,是指导如何在运维管理中定义人员、流程、服务活动及其之间关系的指导框架。
ITIL的框架包括业务管理、服务管理、IT基础架构管理、安全管理、应用管理、IT服务管理规划等,其中最核心的是服务管理中的服务支持和服务提供。IT主管部门可能更关心服务支持,服务支持主要包括:服务台、故障管理、问题管理、配置管理、变更管理和发布管理等六个模块。
为使企业的运维服务更加有效、持续和稳定发展,引进最先进的ITIL管理理念和ISO 20000国际标准,结合制造业在IT运维服务管理情况,提高IT运维服务管理的效率和规范性,保障业务系统的持续稳定运行。
三、企业对于lT服务管理的需求分析
制造业信息化通过多年的建设,形成了众多的信息系统,如何使信息系统稳定、可靠、安全的运行,IT运维服务管理工作步入一个有序的、规范的层,成为数据中心的一个长期的业务目标。
一方面,数据中心面对的管理工作的范围也越来越大,从核心的网络、服务器、数据库、应用系统到终端计算机。对各种IT基础架构设施的具体配置、运行状态、故障、性能进行了集中监控,及时发现故障并报警,同时对运行性能历史数据进行深入、定量分析,并提供各种中长期运行趋势和运维报表,及早发现网络拥塞或系统性能的问题,为IT维护人员提供运维技术手段和工具,提高IT运行监控管理的处理能力的需求越来越迫切。
另一方面,IT系统对于核心业务起着决定性的作用,因此IT服务的可用性以及服务的质量越来越引起重视, 并且在未来还将面对越来越多的数据业务,因此对其计算机网络、系统及各终端设备的稳定性和故障的快速处理、恢复能力的要求,建立合适的工作流程,合理安排人员岗位,明确职责,保障在业务中断的第一时间找到相关负责人去解决问题,快速恢复业务。
四、IT运维服务管理平台设计
在进行IT运维服务管理平台管理设计时,考虑IT服务对业务带来的影响,强调从业务目标角度出发来优化IT运维服务管理。
(一)IT基础设施管理
IT基础设施管理包括网络、服务器、客户机、数据库、应用系统的配置管理、性能管理、故障管理等,系统整体架构横向分为4层被监控层、数据采集层、汇聚处理层、展现层。
被监控层为IT基础设施,数据采集层通过与被管基础设施的接口采集数据,送到数据处理层进行数据处理。汇聚处理层包含2个层面:一个层面是IT基础架构运行监控,主要实现IT基础架构的各种监控功能,如网络拓扑、链路流量等:另一个层面是业务服务管理,主要针对业务层面进行监控,包括业务故障影响分析、业务性能指标计算、业务应用性能监控以及业务视图展现等。最顶层是统一展现层,即统一门户,为不同级别、不同职能的人员提供整合统一的IT运维管理门户。
(二)IT服务管理
基于ITIL流程框架,结合现有实际业务需求,遵循“计划、实施、检查、改进”的设计原则,建立切实可行的实施方法和流程,将整个体系划分为服务台、事故处理、问题管理、变更管理、发布管理、CMDB、知识库等模块划分,运维流程可穿越各个阶段进行流转。
五、lT运维服务管理平台的实现
(一)IT服务管理基础平台的搭建
IT服务管理基础平台系统由应用服务器、数据库服务器、客户机组成,使用分布式部署,减轻核心服务器的压力。创建用户类型、定义安全机制、代码表配置、组织结构数据建设、人员数据建设、资产数据装载,制作统计报表。
(二)服务台建设
数据中心服务台负责全公司服务请求的处理和转发,技术上主要是对服务台工作人员进行培训,掌握全面的运维知识,熟悉服务台职责;管理上主要是制定服务台运维管理制度,明确服务台人员的工作内容与操作规程。服务台是用户申报事故以及获得事故处理结论的统一入口,主要工作包括以下几个方面,一是完成响应服务请求,处理常见的运维事件,将不能解决的事件升级;二是发布相关的运维信息,如网络、业务系统、设备故障等;三是协助提高IT部门事故处理质量,增加用户满意度,形成有效的事故处理和跟踪的手段。
(三)事故管理建设
我们借鉴了IT服务管理的经验,为了灵活实现运维系统各个流程建设,在实践中简化了流程以适应运维工作的需要。在事故处理流程建设中,ITN务管理标准的做法是直接将事故送到服务台,由服务台负责处理或者分发,而实际工作中,将业务系统的监控事件直接送到业务管理系统的管理员,服务台负责监督事故处理完成的情况。
(四)问题管理建设
问题管理管理员直接手工新建问题工单,或者由服务台或事故管理来触发问题工单管理流程。当问题由于成本与技术等原因暂不消除时,可定为已知错误,后期可继续处理。找到问题的根本原因,并提供临时措施与根本解决方案,防止问题再次发生或减少问题的数量。
(五)配置管理建设
配置管理数据库(c B)储存与管理企业rT架构中设备的各种配置信息,它与所有服务支持和服务交付流程都紧密相联,一方面支持这些流程的流畅运转、发挥配置信息的价值;另一方面,帮助技术人员受到服务请求时获取相关技术支持,同时依赖于相关流程保证数据的准确性。
在建设初期通过配置项自动发现,整个企业IT架构的配置项(cI)导入配置项,为了保证数据的准确、全面、我们要求业务系统、设备等管理人员提供、核对相关数据,保证在运维中能准确利用数据进行运维。
CMDB通过拓扑关联图展现各个配置项之间的关联关系,可以清晰的看到各个硬件、软件间的关联关系,也能看到IT配置项和IT服务之间的关联关系,因此当IT服务出现问题时,可以通过该关联关系,快速查找IT服务不可用的根本原因。
将配置项和事故记录、问题记录、变更记录和发布记录相关联,有利于针对具体的IT设施进行运维优化和改进。
(六)变更管理建设
确保在IT服务变动的过程中能够有标准的方法,以有效的控制变更,降低或消除因为变更对业务运营所造成的影响与问题。由专家和技术顾问组成,对提交的变更请求(RFC)进行评审,并最终裁定是否批准实施该变更请求。
变更审计管理,通过CMDB定期对配置项进行自动扫描,发现企业IT架构中的非法变更,管理员根据变更的信息,选择变更恢复或者进入变更流程,帮助管理人员进行变更的审计管理。
(七)发布管理建设
通过正式的流程确保只有经过完整测试与得到授权的软件与硬件才能够进入正式运行环境, 以确保变更后生产环境的质量。发布的最终结果将会反映到cMDB中。
(八)知识库建设
将成熟可行的解决方案录入知识库,进行数据共享,快速排除故障,从而达到提高用户“自助式服务”能力的目的。当运维人员进行事故、问题、变更和发布运维流程时,可以根据不同资源类型, 自动关联该类型的知识条目,帮助运维人员快速解决问题。知识库的自身管理,包括建立、审核、分类、评价、订阅、收藏、搜索知识等,知识需要经过知识库管理员审核后才能进入知识库。
六、结束语
通过ITIL在制造业的实践,实现对IT系统的集中、统一的监控管理,设计和建立基本的IT服务管理流程和技术支撑平台。IT运维服务管理信息化是信息部门自身工作信息化的一个标志性环节,不但意味着管理的标准化、规范化,也提高了对外的服务能力与质量,提升了运行管理水平及故障应急处理能力,实现了知识经验的积累和共享,并且把工作量化,为考评提供依据。
实现IT服务管理体系涉及到很多方面,实施过程中要考虑企业的文化特点和对变化的接受能力,立足现有的组织分工和人员结构,分期设计、实施,建立配套的管理制度等。
来源:万方数据
LZ敢整点更有创意的不?兄弟们等着围观捏~ 珍爱生命,果断回帖。
页:
[1]