以下基于我们公司的情况讨论运维服务管理,可能并不是非常具有代表性,只是希望可以找出运维服务管理中的一些经常会碰到的难点,以前有没有对应的解决方法。前段时间一位朋友说了一个观点,运维服务是自动化程度最低的一个行业,很有意思的观点,那会不会同时运维服务也是管理最薄弱的一个行业呢?
我接触运维服务的时间并不长,但是我个人总觉有时候我们把运维服务搞得复杂化了,因为大家没有看透业务本质,运维复杂的不在于业务,而在于技术,在我看来运维服务不见得比制造业复杂,那为什么制造业的管理要成熟得多呢,我觉得这是一个管理资源的问题,也是一个时间的问题,在运维服务行业真正意义的管理者是非常缺乏,我说的管理者,是用对象的方式看待业务与流程的,我深信郭士纳或斯隆这样的人,把他们放在任意一个行业,他们都是会一个优秀的管理者,有时我们过于强调行业经验的重要性,事实上在管理领域,行业的特性对管理者造成就特殊要求并不如我们想象的那么多。运维服务尚未真正形成行业,多数的领导者并不是管理见长的,多是从底层或技术提升而来的人员,视野与管理理念的缺乏,这也妨碍运维服务管理的成熟与发展。
以下我将展开对运维服务管理的一些难点及问题,展开说明,可能不会十分具有体系:
一、项目型管理方式的挑战
当一个组织是以项目的形式运作管理时,在管理上积淀是比较困难的,项目本身就是一独立的权力结构,但并不是公司法定的,公司的组织机构是按部门、科室式的划分的,公司的管理体系也多是以部门的职能划分的流程,这时权力的矛盾就一定会在业务运作时产生,发生资源的略夺行为,要么部门难以管理,要么项目难以管理,而由于项目是一个临时的组织,这种人力的汇聚与释放都是比较麻烦的,人不是一个机器部件,放在哪儿都是一样,你起用一名人力需要相当长的磨合期,而且公司的任务往往是有周期性的(最小时间单位很大),这时人力释放时并不意味可以马上投入利用,这种痛苦没有经历过很难体会到,这比你在ERP中排生产计划还要难。
运维服务一般是项目的形式管理的,项目内的作业与要求与部门或公司的制度或管理往往是存在偏差的,这时如果部门或公司处于强势地位,项目内的作业往往会被冲击,或者被动的敷衍配合公司的制度或管理,就比如培训,站在部门或公司的角度希望搞员工能力提升的培训,这种计划安排与内容,往往与项目内希望做的培训是有非常大的出入的,很多时候项目的一线主管们,往往认为公司或部门并不是帮助他们,而是一个麻烦制造者。一旦项目数量大时,这种情况越普遍,因为项目越多,上层对规范、标准化的愿望就越发强烈,当一线的项目主管们花费越来越多的管理资源配合公司的规范与标准时,对项目的控制力就会开始下降,一旦发生问题,上层领导就会认为是因为缺乏规范与标准化,形成一个恶性循环。我经常看到一种现象,当某个项目发生个严重运维事件时,马上会短时间把管理资源进行堆积,对这个事件进行深入到可怕的分析,然后制订出一个非常完备的制度,要求每个项目进行落实,真的这种做法会起到良性的作用吗?我怀疑,因为反应过度了,也有些缺乏理性,资源永远是有限的,你把多数的资源花在防止概率很低的问题上,而让那些概率较高的问题没有相应的管理资源去控制。当你想达到一个目的时,你会采取一种措施,但事实上你采用的措施往往会让你妨碍你达到目的。
对于运维服务而言,你让客户用一个最重要的词来说出他的要求,他们往往是说“稳定”,同样的道理,运维服务管理也是最需要稳定的,那种救火堵漏的做法并不可取,你先要很稳定你的管理,再去谈改善,永远处于制度的发布与调整中,会让运维服务管理反而成为最大的运维风险,我觉得领导者在此的作用非常重要,作为高层领导,由于缺乏细节信息,对自已的运维服务管理缺乏信心,总是觉得随时会发生火山爆发,一旦发生问题,就会过度的反应,这种现象是非常可怕的。
作为运维服务的管理部门,一定想清楚自已应该做些什么,你的管理边界在什么地方,你是一个政策制订者,不应该越过项目的边界去干涉项目的内部事务,这种做法最多只能取得短期成效,从长期而言,结果一定是负面的。管理部门负责服务体系的维护与执行监督,以及所有服务资源调配的控制者,这才是最重要的,再细节层面,管理部门应该只起到辅助的角色。
二、运维资源的充分利用问题
有时我在想一个问题:做运维的人员,是应该忙还是闲呢?我发现这是一个很矛盾的问题,如果忙,那证明你的运维问题比较多,如果闲吧,证明你运维问题比较少,但是你的资源可能没有充分利用,那有没有一种可能,把每一个运维人员的工作安排得都不是那么忙,也不是那么闲呢。运维最大的成本就是人力的成本,想办法充分提高工时利用率,这本是无可厚非的。但真正分析下来,做到这一点有时是不现实,或者说是很困难的。
运维的作用,当然也有许多日常的事务,但是更多的时候,运维的价值体现出了问题时你的响应与处理。在多数的运维服务中,你的运维对象并不是标准化的,尤其是在软件领域,这就决定了你的人员复用是困难的,因为一个人员的脑子只能装进几个系统,同时每个系统的升级与处理故障的知识是每隔一段时间就更新的,举这样一个例子:A系统每天的问题处理需要3小时,B系统需要3小时,现在是由两个不同的人员负责的,那是不是可以由一个人负责运维这两个系统呢,现实情况肯定是行不通,即便一个人可以掌握两个系统运维的知识,两个系统发生的故障的时间完全有可能重叠,还有其它的各种临时事务会排挤在一起,造成服务问题,这种情况人力的闲置好象就成了不可避免的了。
虽然即便一名服务人员的资源没有充分利用,客户也会购买你一整个的人力,从这样一个单点似乎是可以接受的,但当这样的闲置情况很多时,作为一个商业公司,就一定会想办法去提高资源利用率,这方面好象除了提高人员的运维能力范围外,真正没有非常好的办法对应解决。
三、服务台管理问题
服务台设立也是一个比较复杂的课题,怎样的的服务台才最有效,才能最节省资源。如果仅仅为了满足参观者的感官,可能让一帮戴着耳机的热线MM坐成一片,忙碌着,用甜美的声音问着好,这样看样象个服务台,也显得专业有气派。但现实情况中,这样的服务台形象是有,但很可能实质上未没有起到作用,是在浪费运维资源。
当你只有几个项目,跟你有几十个项目时,服务台是会开始质变的,项目非常多时,服务台的人员是不可能听得懂客户在说些什么的,尤其当你的运维服务不是标准化的社会化产品服务时(比如桌面),当一个客户打电话过来说“我的售车申报做不了”,服务台人员如果没有比较深入项目知识,是连是哪一个系统搞不清楚的,甚至连问题描述与等级都不知道如何定(注意服务台人员要在ITSM系统中派单),这时服务台可能直接转电话或者草草记录下来,这种时间服务台人员的作用跟一个4万元的语音菜单没有区别,更有意思的是,如果当有语音菜单时,语音菜单会在客户电话时提示,A系统请按1,这时就电话接入到服务台,还是接入到这个系统的一线工程师呢?如果服务台可以处理这个电话,事实上服务台就是一线,多数情况下服务台人员无法处理这样电话,除非你把所有一线工程师纳入服务台。这里面好象一些规律,在运维服务中,当你的服务台无法做一线支持时,这种时候好象不设立专门的热线MM会合适些,或者把你一线支持人员全部纳入服务台中,把服务台做成一个虚拟或混合形的。我们的情况跟这种情有一些类似,服务台人员不了解具体的每一个项目知识,这时需要把电话转到一线人员处,或者告诉一线人员,由一线人员跟客户联系,这时许多客户最后都不打电话到服务台了。
我个人是一直倾向把一线人员纳入服务台,取消单纯的接电话性质的服务台人员,因为这会节约运维资源,但这些也会有一些问题,比如谁来监督事件的服务质量。
四、运维服务分析问题
运维服务中,我们一直强调改善,改善就意味着你一要清楚你的现状,二是要清楚你的目标,这两点是要基于大量数据分析的,而且运维服务都是基于项目的,而我们说的改善并不光是针对项目这么微观的层面,而是基于整体的层面,就是意味着你的数据是有一个度量标准,这个标准适于不同的类型的项目,不然你根本无从知道你的整体状况。
这里ITIL中的SLM有一个指引作用,但这还不够,我认为要做到深入的运维分析,需要以下的几个要素:
需要有一个精确的CMDB:CMDB提供信息让你方便把每一次的事件定位,以便让你知道什么地方的什么组件出了多少问题,在项目层面可以提供精确的数据来做改进(哪一个模块是问题最多的),在管理层面,CMDB的附带信息会告诉你哪一类的设备是我们运维的薄弱环节(如果硬盘的故障比重较大,我们可能换供应商,或者提升运维人员在硬盘维修能力)。
需要有一个横向业务分类基准:要基于组织层面,规划出一个分类数据,以供每一个项目统一调用,比如事件的类型,我们可以分为:故障、请求、咨询、新需求、投诉,这样可以跨项目统计,每个周期内的每一个事件类型有多少。
比如事件的分类:我们可以分为软件、硬件、网络、数据库、接口、业务。
需要时间资源的记录:这一部份的数据采集是最为困难,也是最有价值的,它与上面的信息交互分析,可以知道哪一类设备花去我们最多的时间资源(CMDB),可以知道我们硬件故障的平均处理时长是多少(事件分类),还可以知道新需求会花去我们多少时间资源(事件类型),除此之外,还有基于员工的绩效分析以及运维结算的数据统计都是需要基于此部份的信息的。
运维服务分析,个人的意见是没有ITSM软件是难以展开的。
五、软件化管理问题
运维服务作业采用ITSM软件管理,这本是没有什么值得争议的,说来我也在设计与推行这种工具,但是在应用时,的确有时比较两难,很多时候有人问我,用ITSM系统对一线的工程师到底有什么好处,如果是官方的解释的话,我会说出一大堆,但是真的是这样吗?换位思考,如果我是一名一线的工程师,我是不愿意使用这种工具的,我快速的把事件搞定,不去填任何信息,来得多快,说什么知识库与CMDB,我没有这些时故障一样可以处理。
上面说的是现实情况,我并不是否认我设计的东西,只是它真正价值在于平台意义与运维服务管理的意义,而不在于具体的业务支持,会因为ITSM系统的上线,而降低运维服务成本吗?会提高运维服务的效率吗?,我的回答是不会,起码短期不会。这些回答被领导看到了,一定会杀了我,嘻嘻,因为我一直不是这样回答的。同样是修一台电脑,怎么可会因为上一个ITSM工具,以前只需要30分钟,现在就只要20分钟呢。一定要我解释怎么降低成本与提高效率的,我也会说出一堆理由,但这种理由只能满足无法洞悉事物本质的人。
人们一直没有真正理解管理软件的真正价值。管理软件首先要满足是管理的需求,而不是具体业务操作的需求,你想提高桌面的运维效率么,SMS是解决这一方面的问题的,上ITSM工具,是为了固化你的体制与流程,让你的服务体制更规范与标准化,形成一面镜子,把你真实的运维现状反映出来,让你的运维服务真正意义上管理起来,如果说在某一段时间会增加了你的成本,那么这个成本是你必须需要付的,因为这是你以前欠下的债。用一个不恰当的例子吧,学内功不能让你很快打倒一个人,学一个招式可能可以,但当你学十年的内功跟学十年的招式相比,前者会更具成效,而且当你招式了一两年后,你会发现你根本无法进步了,因为缺乏根基。要想清楚你上ITSM工具是为什么,你要解决什么问题,如果你不是为了解决管理上的问题,而不是为了提高工程师效率,那么不是你的目的错了就是选择错了,只有当你的运维服务管理稳定成熟后,才能为你后续一切提升以及成本效率提升源源不断的动力、方向、决策支持数据,而软件就是帮助你前行的有力工具。
ITSM工具,由于SLA的计算,对事件处理信息录入有比较苛刻的要求,这对一些经常需要在厂区跑来跑去的工程师来讲是比较麻烦的,比如象桌面项目的服务工程师,他们不可能随时带电脑在身上,外面服务时,都是电话派单过去,这时事件单关闭不及时,会引起SLA的计算失真问题,这些都是一些负面影响,在软件功能上很难有什么解决办法,需要有其它的对应方式。选取了ITSM工具,如果领导者不坚定,最后应用可能得不偿失,如果没有强力实施到底,到时数据采集不到,管理分析无法有效进行不说,反而让工程师怨声一片,最后两头不讨好。其实退一万步说,最坏的结果是,即便没有有效支持业务活动,工程师要比以前填写更多的信息了,但对公司来说有负面影响吗,我们不会因为上一个ITSM工具而多请几个人,也不会因为上一个ITSM工具多发一些加班费,所以成本其实是不会因此上升的,长期来说,收益一定是有的。
|