monicazhang 发表于 2015-8-28 14:45:30

可供参考的ITSS问题管理实践方案

本帖最后由 monicazhang 于 2015-8-28 15:03 编辑

20150828   淡然续上






5      现有流程的改进建议

5.1    IT问题管理的现状
对于某公司 IT部门问题管理的现状,以下将分别从流程、组织人员和技术工具这三个不同的方面阐述:                      ITSS考试流程目前某公司的运维管理中还没有建立专门针对问题管理的完整流程,但现有的运维系统具有一定的相关问题管理功能。问题的发现是以现有运维系统中事件管理为基础,电话服务人员本身是IT人员,对系统比较熟悉,有基本的错误判断能力,他会根据事件的严重程度,决定是否上报,包括一些经常出现的事件及细节的问题也可能上报道运维系统进行处理。对问题的跟踪也是通过运维系统来跟踪问题的处理情况,包括问题的详细处理纪录并通过运维系统建立KDB知识库。对于问题的预防措施,主要通过三个方面:



通过主动的系统监控,容量和性能的监控,不过目前的监控是以半人工的方式,还没有建立集中的监控系统,网络的管理集中在集团,产寿险核心系统各自管理,P13安全项目将会对系统的监控做出规划。 为应对公司某些业务方面的不断的需求变化,会提前做好IT方面的准备工作。 [*]通过对事件管理中对突发事件的汇总,主动总结存在的问题。
按照目前的运维方式,一线的IT人员比较侧重事件的处理;后台IT人员比较侧重于问题的根源。目前通过运维系统不断地收集需求信息,定期将问题及需求提交给开发组,而没有与需求管理及变更管理较紧密地结合。另外软件发布包括由于问题的解决时对系统的变更等是通过运维系统向外发布通知的,与系统上线及发布管理有一定的关系。目前因运维人员不足,同时缺乏问题解决的实施标准,导致工作做得不够细,问题解决实施不彻底。组织与人员某公司目前在还没有专门设立问题管理的组织,以下组织在某种程度上承担了问题管理的角色:运维部负责建立事件库,采集及分析问题,找出问题根源并解决问题,或根据问题提出新的IT需求。技术与工具目前通过运维系统建立问题知识库,跟踪问题处理记录等。同时在问题发现和诊断采用的工具方面相对滞后,主要采用的是运维部内部开发的基于一些系统脚本的工具,其效率和数据的准确性都存在着一些问题。

5.2      问题管理改进建议
改进建议 1:立即在目前的运维单位内部树立问题管理的理念。                      ITSS认证
具体实践:



建议在目前的集团、总公司级别的IT运维系统中树立问题管理的理念,实际上,很多问题管理的工作都已经在进行中,只是缺乏系统的组织。 确定每一层次上的问题管理中的人员角色,特别重要的是确定专人负责日常运维管理中的重大问题发现、解决和记录。 [*]建立或加强主动的沟通和问题管理例会制度,建议问题管理信息的回顾与例会周期设置为每月一次。
改进建议 2:优化目前使用的系统诊断手段和工具,提高技术人员的技能水平。
具体实践:


[*]鉴于某公司的IT基础架构较为复杂,涉及的技术、品牌数量众多,而目前主要采用的诊断工具为运维部自行开发,且在使用过程中亦遇到很多问题。因此,建议整体回顾目前在管理方面的需求和目前所使用的工具:
-          对于运维人员尚未熟练掌握使用的,应加强维护人员的技能培训;-          对于使用较好的诊断工具,应继续优化,特别是与某公司应用或业务相关的,需要某公司运维部门的管理人员的进一步完善;-          对于缺乏有效诊断和管理工具的IT对象(包括基础架构、应用系统和管理流程等等),短期内应特别加强管理人员的技能水平及增加相应的管理资源。此外,建议运维人员对此进行回顾,并将需求反馈到企业信息管理技术平台标准中,并通过数据中心的建设和管理流程建设项目落实。


[*]提高某公司技术人员的技能水平,可以考虑通过增加培训机会、专向培养等方式为某公司培养出一批技术骨干。
改进建议 3:知识库系统的准备。
具体实践:


[*]鉴于知识库系统在运维管理和问题管理中的重要性,应该立即着手为今后的某公司 IT知识库系统做好准备,特别对于目前管理流程还不完备的阶段,对于问题纪录、错误纪录及其解决方法的统一纪录就显得十分重要。对于知识的准备,应有专人负责,具体的问题纪录的内容应包括:

问题编号


问题简述


分类
[可以考虑根据对象的分类:如网络、服务器、数据库、存储系统等等]
典型症状


问题发生历史
[主要关联相关的突发事件状况(例如总共发生几次、时间等等)]
规避措施
[临时的规避该问题及所引发突发事件的措施方法]
问题解决方案
[解决该问题的方案]
对应专家
[充分了解此类问题的专家及其联系方式]

改进建议 4:重要的效能指标的采集。
具体实践:


[*]效能指标是标志流程效率和有效性的标准,对于问题管理流程启动或改进的初期,应该特别注意关键效能指标的采集和比较,从而可以体现出管理的效率,得到管理层和员工的支持,从而进一步深化。在目前的阶段,由于完整的问题和突发事件管理流程尚未实施,建议主要收集以下基本指标:
-          一段时期内的问题的数量和已知错误的数量-          一段时期内用于处理问题所花费的时间(指主动发现潜在系统隐患的时间,考虑以人天/人时计量)-          一段时期内的突发事件数量                        ITSS培训-          一段时期内用于处理突发事件所花费的时间(指被动处理系统非正常事件的时间,考虑以人天/人时计量)-          重大问题回顾纪录





本帖关键字:ITSS
页: [1]
查看完整版本: 可供参考的ITSS问题管理实践方案