1 引言
数据中心运维服务是IT 运维服务中的核心部分。工信部从2009 年开始进行信息技术服务标准体系建设,并于2012 年11 月5 日由国家标准委颁布了ITSS标准体系中“信息技术服务 运行维护” 的三项国家标准,《信息技术服务 运行维护 第4 部分:数据中心规范》也在2013 年1 月通过行标送审。
《信息技术服务 运行维护》标准对不同服务对象、服务过程和服务需求的能力要素进行抽象,并通过关键指标对服务能力进行评价;针对不同服务对象的运行维护服务过程、服务交付内容及特定服务需求提出了要求。各部分之间的关系如图1 所示。
针对数据中心运维服务,国际国内未有相关标准。ITIL 强调“管理”或者是“服务的方式”,而
《信息技术服务 运行维护 第4 部分:数据中心规范》描述的重点在于服务本身,同时包括了“服务内容”
和“服务方式”两者。此外,就管理而言,《信息技术服务 运行维护 第4 部分:数据中心规范》是在“数据中心”这样一个具体对象场景下实现对ITIL和ISO/IEC 20000 的继承性实现或具体化。该标准旨在规范数据中心运行维护服务供方( 以下简称供方)行为、改进服务能力及提高数据中心运行维护服务的工作效率。数据中心运行维护服务的服务需方( 以下简称需方) 可以参照表1 提出明确的数据中心运行维护服务需求。
2 《信息技术服务 运行维护 第4 部分:数据中心规范》主要内容
标准从保证数据中心的业务连续性和信息安全的角度,以确保运行维护内容满足SLA, 保证服务交付的质量为准则,结合国内外数据中心运行维护服务现状,明确数据中心运行维护对象、运行维护基本要求、运行维护内容等。标准将为数据中心运维服务的各个环节提供行动指南,推动数据中心运维服务产业链的健康、有序发展。
标准适用于供方设计和交付数据中心运行维护服务产品;供方或需方设计和开发数据中心运行维护系统;需方管理供方的数据中心运行维护服务交付内容。标准也可作为需方选择和评价数据中心运行维护服务供方的依据。
该标准明确界定了以下内容:
(1) 数据中心运行维护对象和运行维护交付内容数据中心运行维护对象是数据中心运行维护服务的受体,是数据中心运行维护服务供方按服务需求所提供的运行维护服务相关的信息技术资产。运行维护对象分为机房基础设施、物理资源、虚拟资源池、平台资源、应用资源和数据六类。
数据中心运行维护交付内容包括调研评估、例行操作、响应支持和优化改善四类。
数据中心运行维护对象和交付内容之间的关系,见图2。
(2)数据中心运行维护服务的基本要求
数据中心运行维护的基本要求由可用性、安全性、及时性、规范性组成。
数据中心运行维护供方应采取适当措施,确保运行维护内容满足SLA, 保证服务交付的质量。
供方应建立作业流程和服务响应机制,进行合理的人员岗位设置和职责定义,并定期进行专业培训;配置适用的运行维护技术和资源;建立体系架构的健康检查点,并配备合适的运行维护工具。
供方应建立信息安全管理机制;对数据中心运行维护服务人员采取有效的信息安全管理措施,对数据中心运行维护服务人员进行安全管理及安全要求培训,并进行检查;进行安全评估,提供安全建议,并对运行维护对象进行监控和保护。
供方应对事件、问题、变更建立明确的分级策略并定期更新;建立可确保满足需方要求的沟通联络机制;建立服务资源调度机制及与服务相关方的协同机制;在特殊时间段,提升响应级别。
供方应建立运行维护服务管理流程文件;建立或遵循需方数据中心相关管理制度;建立技术操作手册或实施方案,进行风险评估及分析,采取相应的风险规避措施和回退手段;建立记录所有活动及运行维护对象状态的运行维护档案,形成服务报告。
3 标准应用成果
3.1 项目信息
客户名称:中国建设银行股份有限公司广东省分行
项目名称:计算资源池和备份资源池运维项目
实施单位:广州南天电脑系统有限公司
实施周期:2010.01-2013.11
3.2 挑战和压力
中国建设银行广东省分行是中国建设银行辖下规模最大的一级分行,网点数量、员工数量、资产规模、自助设备规模等均排名第一。信息化基础设施建设已经形成了较大规模,形成了主数据中心及同城灾备中心的双数据中心模式。数据中心机房有1 000 多台主机设备,4 800 多台网络设备;业务系统230 多个,其中总行系统58 个,人民银行系统5 个,分行系统167 个,信息化建设的重点逐步由新系统的开发向新系统开发与运维管理并重发展。庞杂的运维工作由运行管理岗牵头,技术支持、网络、应用开发分别组成相应技术条件的专业团队提供具体的技术服务,由安全管理岗对全程生产进行质量保证。
信息技术部面临的挑战和压力主要是:
面对如此庞大的应用和设备,如何全面感知和发现系统的异常情况;如何保证内部运维团队和外部服务供应商的无缝融合,将运维过程标准化,以提高效率;如何应用先进技术,简化IT 架构的复杂性。
3.3 实施内容
作为第一批参与ITSS 广东省验证试点单位,南天公司和广东省建行根据需求实际情况,重点选择和参考了《信息技术服务 运行维护 第4 部分:数据中心规范》标准来改进IT 服务能力。
3.4 实施过程
● 监控系统完善
提前感知故障隐患和及时发现异常情况是运维工作的首要工作。广东省建行有230 多个业务系统,其中关键业务系统23 个,已实现操作系统、数据库、中间件、网络等99% 以上监控指标覆盖;重要业务系统53 个,一般业务系统150 多个。为了进一步提高业务的可用性,参考《信息技术服务 运行维护 第4 部分:数据中心规范》,除了原有关键系统100%覆盖以外,实现了一般系统的监控覆盖率从2010 年初的零监控提高到2011 年的99%,SOP 监控集中管理框架如图3 所示,CMPB 系统收集的监控数据送至SOP 平台,并对这些事件进行归一化处理,事件告警和统一展现,相关系统人员可通过标准操作平台(SOP) 进行系统运行状态监控及分析,实现了机房基础设施和系统平台( 网络设备、主机设备、数据库) 的集中监控。
同时,为了实现应用级的监控,在现有基础上
建立统一的监控数据链( 机房基础设施+ 系统平台+ 应用系统) 是必要的,对授权支付、储蓄特色、金融服务、资金归结等关键业务系统,开发了与SOP系统相应的系统接口,通过参数化的配置和定制,428 个交易服务实现了交易笔数、交易成功率的监控,对20 多个应用守护进程、34 个应用服务实现了状态的监控。在此基础上,下一步将研发基于全行业务的运维指挥辅助管理系统。
● 流程和文档的标准化
中国建行广东省分行已建立符合ITSS 的事件管理、问题管理、变更管理和配置管理四个关键流程,二线设有六个专业技术团队,包括Oracle、UNIX、监控、应用、虚拟化及存储备份团队,各团队需完成系统监控、巡检及日常维护工作,编制相关系统的运维文档等。为提高运维的可靠性和效率,实现多个运维供应商的统一管理,应对技术人员流失或岗位变动的影响,参考《信息技术服务 运行维护 第4 部分:数据中心规范》,对数据中心运维交付内容进行了标准化。整理项目文档模板八份,包括项目周报、月报、软硬件产品的预防性巡检模板、故障处理报告、值班工作单等,并着手梳理服务质量评价指标体系;技术文档方面,按主机、存储、操作系统、中间件、虚拟化、应用系统等组件分类,编制标准化的运维手册( 含系统安装、常见故障处置、巡检、应急处置等)15 份,知识库收纳应用系统资料90 份,标准化重启系统文档112 份,应急文档96 份,有效提高了事件处理效率。
● 利用先进技术优化基础架构,减轻运维压力
针对中国建行广东省分行庞大的服务群所带来的管理和维护压力,采用服务器虚拟化技术(VMWARE+ 刀片服务器) 对现有的基础架构进行优化,迁移及整合了包括WEB 合并整合、TS 运维操作、数据集市系统等50 多个应用系统共400 多台服务器至虚拟化平台上,所有虚拟机统一由CMPB 及SOP平台进行监控,而VC 管理服务器及物理服务器则通过短信平台进行统一发送报错信息。虚拟化技术的运用,提高服务器/ 管理员的配比( 从20:1 左右提高到200:1),加快了应用程序开发和部署的周期,提高了灾难恢复能力,将因硬件故障而造成业务中断的影响降到最低,从而系统减轻了运维压力。
3.5 实施效果
通过运用《信息技术服务 运行维护 第4 部分:数据中心规范》,结合自身的实际情况改进运维服务,中国建行广东省分行计算资源池的运维服务项目取得了良好的效果,保障并推动了建行业务的健康发展,关键系统、重要系统及一般系统的累计故障时间都较2012 年大幅下降10% 以上,所有系统实现100% 监控覆盖,实现了自动巡检,尽可能将故障的苗头扼杀在萌芽状态;所有重要的流程都做到了文档化、合规化和标准化;中国建行广东省分行信息化的建设有力地推动了其业务的发展,而IT 运维的标准化则为业务的稳定运行和高速发展提供了强有力的保障,由此将产生的巨大的经济效益和社会效益。
4 结语
该标准为首次制定,在实施过程中,应根据实际应用情况进一步修订完善,以适应数据中心运维服务不断发展的要求。对于标准应用方面:
(1) 建议从区域、行业和政府等多个角度进行试点示范和应用推广,根据实际应用情况进一步修订完善。例如:不同行业数据中心各系统特点和要求有较大的不同,因此该标准未检查表列出相关检查项的阈值和频度,各行业和单位可以根据自己的实际情况进行梳理,并且可建立基于应用的体系监控检查点。
(2) 该标准是运维系列标准中的一部分,实施时建议提供配套的培训教材,并充分阐释系列标准各部分关系,以便标准使用者能更好地理解和应用。
(3) 该标准定位是数据中心运维服务对象服务内容要求,可作为服务、工具产品认证及评定的参考。以促进标准的推广应用,发挥标准的作用。
************************************************************* ITSS、培训、服务、资格、评估、ITSS培训师、ITSS评估师、实施ITSS、ITSS符合性、ITSS服务工程师、ITSS服务项目经理、ITSS标准、ITSS咨询、ITSS工具、IT服务监理、ITSS体系、ITSS服务质量、评价、指标、运维、治理、咨询、ITSS出版物、ITSS产品、服务监理工具、服务质量评价工具、标准符合性评估工具、服务管理工具、服务治理工具、系统监控工具、辅助决策分析、服务支持管理、基础设施监控、ITSS基础教材、ITSS标准、ITSS服务人员培训教材、标准化、专业化、人员(People)、流程[1](Process)、技术(Technology)和资源(Resource),简称PPTR、规划设计(Planning&Design)、部署实施(Implementing)、服务运营(Operation)、持续改进(Improvement)和监督管理(Supervision),简称PIOIS、服务交付规范、资源要求、外包管理、服务交付、分类、代码、服务指南、通用要求、指标体系、ITSS落地实践交流-QQ群:21542747
|