光大银行IT服务管理的体会

jankie

对于信息化水平较高的银行业而言，信息系统发生故障的几率已降至最低限度。然而，近几年国内多家银行都曾发生过因系统故障导致业务中断的事故，这对市场竞争日趋激烈的银行业来说，无疑是一种致命的信誉损伤。根据《巴塞尔协议》，现代银行风险可以分为信用风险、市场风险及操作风险。其中，操作风险是指因操作流程不完善、人为过失、系统故障或失误及外部事件造成损失的风险。因此，在银行经营管理的范畴中，防范、化解操作风险，保障信息系统的安全和持续运行，始终是摆在银行管理层和科技部门面前的“硬道理”。

作为新型股份制商业银行，中国光大银行(以下简称“光大银行”)一直对银行信息化非常重视，其领先的信息系统确保了银行业务持续发展。2005年，光大银行科技部坚持在发展中防范化解风险，大力提升运行管理水平，强化责任意识，率先实施了ITSM(ITService Management，IT服务管理)项目，为全行提供了更加安全、高效、可靠的科技支撑。日前，专程采访了光大银行信息科技部总经理李坚和运行处处长史晨阳，听其解读了该行实施ITSM，保障信息系统高可用性的体会。

：实施ITSM项目的动因是始于科技部门、业务部门，还是银行最高管理层？如何认识和评价ITSM项目在银行科技管理中的作用？
李坚：实施ITSM项目的出发点是总行科技部门对信息系统持续运行的需要，但是其终点肯定不只如此。

2001年7月，光大银行实现大集中之后，科技工作的首要任务是保证集中起来的系统安全稳定运行；其次是把集中起来的原始数据经过业务和技术的手段，变成有价值的信息，并将这些信息用于决策支持、客户服务及为监管部门提供统计数据。
数据集中和核心业务系统统一是实施ITSM项目的前提。2005年4月，光大银行实现了新一代核心业务系统的上线运行，新一代核心业务系统把原来的柜台、借记卡、本外币收付实时清算、个人消费信贷等分散的系统进行了重新整合。

与此同时，研发、建立了新的银行管理会计系统，包括产品的成本核算、部门的成本核算、产品及业务部门对银行利润贡献的分析、银行资产负债管理以及现金管理等。此外，我们尝试把银行总账系统从银行核心业务系统中剥离，实现了银行总账系统的独立运行，初步做到了产品成本与部门成本分摊，这在国内银行业处于领先地位，也是银行管理、业务创新与IT有机结合的最成功案例之一。在此基础之上，我们清醒地认识到，基于银行管理层对于决策支持信息的内部需求和中国银行业监督管理委员会等监管部门对于银行合规经营的外部要求，2006年初，我行启动了数据仓库项目。

借此机会，我主要想结合ITSM的实施、谈谈集中之后的安全运行的思路。由于银行对信息系统依赖程度越来越高，信息系统的运行管理已成为银行科技部门保障业务连续性的首要任务。
第一，运行管理队伍素质和系统管理水平的提高是要优先考虑的问题。
第二，在科技人员的素质达到一定层次之后，建立、健全管理机制和制度，保障安全运行。
第三，要靠科学有效的手段进行安全运行管理。
在确定了这三个目标之后，需要靠实施ITSM系统提高我行的运行管理水平，我们专门组织了精干队伍实施ITSM项目。从2005年9月一期项目投产至今，取得了很好的效果，前不久一些国内银行业的同仁到光大银行参观，对此给予了很高的评价。

ITSM项目的实施动因是由于科技部门认识到ITSM项目的重要性，积极要求在全行建立这套系统。事实上，该项目对于规范系统运行管理发挥了重要的作用。
第一，对我行的IT资源进行有效监控和管理，包括硬件设备、网络设备、应用系统等资源。
第二，改进了银行整体IT服务的流程管理，提高了银行整体对内、对外的IT服务水平。当IT系统有问题的时候，IT部门能够首先发现问题，力求主动预防系统故障、操作失误等，而不是收到用户或业务部门的投诉后，才去响应和补救。
第三，在运行维护和业务连续运行方面，总行的压力比分行大，但是由于少数分行安全运行意识逐渐淡化，一些分行在运行方面发生事故的情况比较多。解决这个问题有两种途径，一是总行尽可能多地帮助分行完善规章制度，通过年底考评，督促他们提高安全运行意识，提高管理水平和人员素质；二是通过ITSM中的监控模块，由总行运行部门对分行的系统资源、运行状况进行实时监控，总行发现问题后，及时通知分行的有关部门进行修改。这些举措有效地促进了分行提高运行管理水平。

ITSM项目对我行系统运行提供了更有效的保障。例如，系统资源的使用情况、每个月的运行状态、有多少故障、故障属于哪些领域、用多长时间解决的，通过积累经验和教训建立知识库，以后发生类似问题，打开知识库就可以查询到解决方法，对IT内部管理起到了积极的支持和推动作用。

目前，我行已经完成ITSM项目的初期目标，主要引进四个产品，搭建ITSM系统平台，在完善IT部门内部的管理流程方面取得了初步的阶段性成果。今后，随着我行组织架构的变化、新的业务需求的提出，ITSM项目还会继续深入、不断完善，这是一个动态的过程。
：实施IT服务管理前后业务流程的主要变化和成果体现在哪些方面？
史晨阳：目前，很多企业都是想通过ITSM项目重新定义运行维护管理流程，借此提高运行维护和管理水平。
目前，光大银行有近40套业务系统投入运行，这些系统大多需要7×24小时运行，需要很多在特定时间(如每天的某个时刻、周末的某个时刻、月末的某个时刻)或者特定条件(某个子系统完成了某个任务，或者某个角色的人执行完了某个操作)去执行的批处理任务(构成操作流的逻辑单位)，这些任务如果没有一个有效的控制和调度系统，将很难保证银行信息系统的服务质量。
实施ITSM项目初期主要是在三个数据中心(两大一小)内搭建了一个系统管理平台，包括场地、IT设施以及监控显示墙等物理设备。四个产品主要包括惠普的HPOpen View系统和服务台系统、理想公司的iEAI(作业控制台系统)、VERITAS I3(Insight Indepth Inform，数据库性能分析系统)。这四个系统覆盖了系统运行维护的系统操作、运行维护管理、系统监控等三大职责。在实施ITSM项目中，引进采用了iEAI系统软件来解决关键流程控制等问题。
第一，系统操作，也称为作业控制台系统，采用理想公司的iEAI软件产品，把所有的批处理操作和备份操作全部定义到作业调度系统，系统自动提醒和调度操作员，就好像给操作员戴上了有闹钟的手表。在实施ITSM之前，操作员就是把每天的工作流程写在一张纸上，届时逐一实施并记录操作情况。实施ITSM之后，从2005年8月至今，我行尚未发生因为操作员遗忘或误操作的事故。而此前类似的误操作事故每年约有四五次。现在，系统管理员对操作流程中发生问题的担心比以前少多了。操作员是24小时三班倒，每班有5名操作员，如果没有这个系统的调度，操作员在交接班的过程中，凭大脑记忆交接未完成系统批处理的任务，就有可能发生遗漏，导致事故发生。
第二，运行维护管理涉及的内容比较多，初期主要是系统的变更、内容故障管理、问题供应单的流转和管理、知识库的积累以及CMDB(ConfigurationManagement DataBase，配置管理数据库)。今后，我们还将进一步挖掘系统功能，例如，变更管理不仅是运行维护的变更、系统层面的变更、硬件设备需要更新配件、系统软件需要变更参数、磁盘需要扩容，还包括系统升级、打补丁等通过流程控制登记、实施、审核等变更步骤。目前我们尚未扩展到业务需求变更、修改应用程序。另外，根据需要将变更分为停业务变更、停起服务、停起主机等几类。如果涉及停业务变更，会书面通知业务部门。使用CMDB实现对IT组件的综合管理，包括服务器、系统用户、操作任务、介质保管等，下一步还要关联到EMC存储等。
在实施和推行ITSM系统的过程中，系统管理员有许多理念需要更新，并逐步熟悉和习惯于在此平台上做工作，例如，一般技术人员不习惯每次做变更时都严格的按规范记录，随意性较大。
第三，系统监控是运行维护的重点，一方面是实时监控，另一方面就是资源使用的中长期监控。首先，通过使用HPOpen View对主要生产系统实现了监控，在Oracle数据库层面，对整个数据库的81个指标运行的健康情况监控，通过设定阈值进行实时监控。其次，将所有分行的前置机部署进来，每个月由OVO(OpenViewOperations)提交应用系统的故障月报，汇总出30家分行的故障月报，每个月下发分行，同时由系统管理员根据月报再附一份对故障的分析简报，另一方面看我们的分析年报对故障情况做一个了解，监控实际上已经发挥了作用。例如，前不久，有的分行前置机的文件系统表空间不足了，而分行的运行人员不知道，我们发现后，立即通知分行技术人员采取措施排除了这个故障隐患。
所谓资源使用的中长期监控，是指通过监控系统中的资源性能管理工具，监控整个系统资源的CPU、内存、存储等方面的消耗，实时预警，形成定期资源中长期报告。系统可以通过一些历史数据的分析，对今后资源增长情况做出一些预测，有效实施对系统进行变更操作有一定的提前量。例如，系统操作员发现某个系统CPU使用率长期在80%～90%，虽然暂时没有影响到业务，但是需要系统管理员尽快增加CPU，不能等发生了故障才去解决。

第四，灾难恢复，我们比喻为底牌。可以说我行在ITSM系统的前三个方面如果做得很好，这张底牌最好永远不被亮出来。因为灾难恢复的条件是系统故障没办法解决的时候才启用这个措施，前三个方面ITSM对于业务持续运行起到了非常重要的作用。
：实施ITSM后，对于信息系统安全运行、尤其是应对突发事件有何益处？光大银行准备何时建立异地的灾难备份中心？是否准备外包？
李坚：光大银行的灾难备份居于国内银行领先地位。
根据美国Gartner公司的研究报告，约有85%的全球性企业对信息系统和IT基础设施实施了灾难恢复计划，但是仅有15%具备了完善的业务连续性计划，包括应急、业务恢复、危机处理等方面流程以及相应的行动方案。
灾难恢复的演练已成为光大银行科技部门保障业务连续性每年所必做的工作。目前，光大银行以北京复兴门和陶然亭两大中心分别担负着50%的业务系统运行工作。两个中心互为同城热备份状态，可以随时把任何一个中心的系统切换到另外一个中心，切换后在灾备系统上运行的时间可以是一天、一个星期、一个月，或者更长时间。为了保证灾备切换的成功，我们每年都要安排一次双向的切换演习，验证我们的切换流程和灾备系统的可用性。可以说光大银行在这方面实实在在地投入了人力、财力、物力。

异地灾难备份中心是我们今年计划实施的项目之一，争取在股份制商业银行里率先实现。目前，我们异地灾难备份的思路是外包。如果在前一两年就成熟的话，可能今天谈的题目已经是异地灾难备份的题目，因为我行不想自己建，一直在等社会上真正能提供这种灾难备份服务的第三方，预计今年会有进展，希望大家一起推动这个项目。
：光大银行ITSM项目何时开始实施？项目成功实施的关键是什么？产品选型的依据是什么？
史晨阳：在人员相对较少的情况下，采取比较灵活的方式，循序渐进地尝试、接受ITSM的产品和理念以及其流程，效果非常好。
该项目是从2004年9月开始，分三个阶段实施。
第一阶段2004年9月至2005年初，主要是场地、设施的建立、监控平台的建立。
第二阶段2005年初至2005年的6月，主要是引进产品的安装部署和人员的培训以及一些基础信息的导入。
第三个阶段是深入实施阶段，我们采取灵活方式，分步骤、分环节实施。例如，监控系统在第二个阶段，先部署、完成了总行的系统监控，到2005年底，我们才把分行的监控部署上。其实当时并没有按配套要求明确监控岗位一线、二线、三线的人员职责。我们自己控制推进的速度，2006年初，我们才明确了一线人员、二线人员、三线人员的职责、流程，整个监控体系真正发挥作用。现在，组织完善了、流程建立了、监控平台也有了，下一步就是要提高一线人员的技术水平，使操作员具有解决大多数系统报警问题的能力。
我行开始对ITSM项目的实施目标定位较小，从提升运行维护管理水平的出发点去引进ITSM项目。如果一开始就把这个项目实施目标定位较大、涉及面较广，推进起来就会很难。例如，对于服务台系统各种管理流程的实施，我们事前并不是全部计划好再去实施，而是成熟一个、部署一个。根据工作需要确定子项目实施的优先级，例如，故障管理需要先做，我们就先推进故障管理的流程，待相关操作人员对故障的流程、报警、登记、通知流程已经驾轻就熟了，再去实施下一个目标——变更流程。因为大家对新事物都有一个认识、接受的过程，所以，在ITSM项目实施过程中采取灵活、机动的方式，效果较好。
在产品引进、实施的同时，对系统管理员和操作员作了ITSM项目流程管理理念和流程方面的培训，由于ITSM项目实施模式比较灵活机动，所以采取先让所有的技术人员通过实践掌握某一个子项目，然后再去做下一个子项目的方式，也就是边实施、边培训。
关于ITSM产品的选型，有的产品会使我们感觉大开眼界，但是有些方法实际上是我们自己已有的思路，只不过此前没有找到一个合适的产品来实现它，现在刚好有比较贴切我行管理需求的产品。我们根据工作需要先提出操作管理的思路，测试某一产品能否满足光大银行系统运行维护的需求。另外，系统监控产品的选型，因为我行的业务系统多数运行在惠普主机平台上，所以选择了HPOpen View，在操作系统层面上，其他产品肯定没有惠普自己的监控产品好。但是，对于Oracle数据库而言，哪一个监控平台比较权威、比较好就比较难讲，为确保数据安全，我们还采用了VERITASI3作为辅助监控和调优工具。

：当初引进iEAI是出于什么样的考虑？如何处理报警信息﹖
史晨阳：我行的业务系统越来越多，系统之间的关系也越来越复杂。
每天日终轧账、跑批处理的时候，核心系统先得出数据，这些数据有可能是后台数据仓库系统、管理会计系统要采集的数据，这是一个简单的关系。但是后来业务系统越来越多，关系也越来越复杂，彼此相互牵制。当时引进iEAI就是想通过产品把各个系统关系梳理一下，然后把各系统之间的数据调度、操作过程，通过iEAI的流程控制自动完成。这个产品本身的强项就是在系统资源和人力资源的整合上。iEAI不仅可以把不同系统之间的数据、功能等通过流程和接口互相协调、整合在一起，还可以把业务和管理流程中涉及的人力资源也在流程中统一管理起来。这两类资源正是ITSM中强调管理的两个根本的因素。也正是这种独到的、对人力资源和系统资源统一管理的功能，促使我们最终选择了iEAI。除此以外，我们还发现iEAI平台中的一些功能模块，例如，日历、系统之间的关联，图形化定义作业界面、日志等，都特别贴近我行的作业需求和管理思路。另外，实施厂商积极配合，将iEAI平台按照我们的需求进行客户化定制，使得这个项目实施得非常顺利，发挥了很好的作用。根据操作规章，操作员关于机房任何一项操作工作，都不能游离在iEAI监控台之外，系统管理员可以随时查询操作员正在进行的工作状态。每一个工作在iEAI监控台上显示为一个状态。首先是准备(Ready)状态，即按照预计的时间某项任务应该操作了；如果由于不具备一个前提条件，现在还不能做，则该任务会在监控台上处于等待(Waiting)状态；等到前提条件已经就绪了，操作员就可以接管这项任务，一旦接管，任务变成进行(Running)状态；待操作完成后，则这个任务就从显示屏上消失。如果在任务处理过程中，出现了错误，操作员可以把这种状态设成失败(Fail)状态，操作员可以去找相关的人员去想办法解决这个故障。这样，在这个基于B/S方式的管理平台上，任何一个系统管理员都可以随时看到正在运行的工作状态和现在机房里面的操作人员的工作情况。
此外，ITSM实施之后，电子日志替代了以前的纸质日志，记载着每一项任务是谁操作的、用了多长时间、操作过程中是否转交给其他人、有没有发生误操作，一目了然。我们还用它定义了一些辅助工作，例如，通知功能，我们定义有两类通知，一是系统签到，操作员接班签到时候系统会弹出一个通知窗口，系统管理员事先给他的一些通知写在上面，操作员签到后，就可以根据通知内容去操作；二是任务通知，对某一项任务要做特殊的处理，系统管理员可以针对此任务发出一个任务通知，操作员一旦接管这个任务编号通知，就知道这个任务应该做何处理。
根据流程规定，一线监控岗的职责主要是过滤和筛选报警信息，将无法解答或处理的报警筛选出来，立即通知系统管理员——二线人员，同时在服务器上面建立问题供应单。二线人员经过判断，如果是一个紧急事件，他会立即采取措施去处理；如果是中长期的问题，他可能会在次日查看供应单后再去处理。当二线人员仍然无法解决报警时，必须上报主管领导。
另外，在实施ITSM项目过程中，我行还建立了机房环境一体化监控系统。此前需要技术人员每小时进入机房巡查一遍，检查机房中的UPS、空调温度、消防、湿度(空调是否漏水)等。现在全部是由系统实时监控，一旦超过设定的阈值，系统可以自动报警，当班操作员在监控台上就能看到报警信息或听见语音报警，并立即采取相应措施。

在全球金融业竞争日趋激烈的今天，银行等金融企业惟有通过信息化不断提升核心竞争力才能获得持续发展。中国光大银行实施ITSM项目，大大提高了IT系统的高可用性，并改善了IT服务品质。这为光大银行不断增强金融创新能力，为银行的持续发展提供了稳固的后续动力。

上一篇：用ITIL将系统引进生产环境
下一篇：IT服务管理经验谈

esmond · 发表于 2011-2-9 13:18:54

是个采访呀

zsh0579 · 发表于 2011-2-16 14:31:15

好，很好。

bstar · 发表于 2011-4-6 14:18:51

学习

reds11 · 发表于 2011-9-24 10:42:07

光大银行IT服务管理的体会

评论