davidyeung 发表于 2011-1-18 12:08:26

IT灾难恢复计划

ITIL中有一个持续性管理,其中的一个核心是灾难恢复计划(disaster recovery planning,DRP),它实施的是一个技术框架,支持在灾难发生之前、之中、之后的业务需求。其主要目的是将系统风险降低到可接受的程度,确保重大业务中断事件发生后,能使用一种可接受的经济方式恢复关键的业务运作。DRP也是业务持续性计划(business continuity planning,BCP)中子计划,事实上,在企业中业务持续性计划是由业务部门的领导制定,而DRP是由IT部门来领导。如果一个IT部门/组织没有灾难恢复计划,那是不可想象的,那灾难恢复计划的制定有哪些步骤呢?下面就个人经验分享:1、至少安排一个执行人员负责,此人需要熟悉业务方面操作,可以寻求向业务部门请一位,事实上,执行人员需要确保IT设施受到保护。2、成立团队,这些需要考虑的人员是技术人员,特别重视的是这些人员中必须有灾难恢复计划的经验,若无,建议向外公司请顾问3、确定支持关键业务功能的应用程序/系统4、确保这些系统的关键数据是有备份的,而且是可靠的5、制定计划,确定在发生灾难时,使用的是外部资源还是内部资源6、对这个计划进行实施演习,如果成功,则为所有的应用系统设计一个更加全面的恢复计划。则形成一套方法模板灾难恢复计划的例子模板:(1)恢复计划概况及规范a.计划的目的和目标b.人员安排及责任描述c.恢复行动总结(2)灾难报警及行动过程评估a.恢复管理初始通报b.领导通报c.灾难确认和评估d.灾难恢复计划行动和恢复人员通报(3)灾难恢复管理过程a.恢复操作管理b.恢复操作控制c.支持协作部门(4)处理条件及操作服务过程a.建立替代操作或者备份区域(如果可行的话)b.恢复和重建基本的数据和信息c.激活备份的计算机工具d.激活备份的通讯及网络工具e.激活基本处理及操作服务f.激活终端用户界面和服务(5)恢复过程工具a.激活损坏评估以及对建筑物、设备、软件、数据、信息和供应残存价值评估b.修理及置换受损场所c.重新激活备份场所(6)激活厂家支持(7)计算机中心服务灾难水平说明a.表明当影响了企业计算能力的灾难发生之后需要提供的服务水平b.这份服务说明表必须被包括在“服务水平协议”之中,并且向所有使用IT部门提供的IT服务说明例如:
序号
服务
故障预见
故障级别
故障预防措施
故障处理和恢复措施
要求时间
责任人员
备注

1
***
MQ服务器硬件损坏,造成到***系统通讯中断
二级
1、准备备用环境:
以另一台同型号服务器做备用机--目前是***系统的四台AP服务器中的一台(具体服务器名);
在(具体服务器名)预先安装配置MQ环境;
2、保证系统安装配置指南的可用性和练习;
1、如果硬盘无故障,将一台***系统的AP服务器(IP地址)的硬盘拔出、而将MQ服务器的硬盘拨下来插到**ip的服务器上使用,***服务器停止提供***的AP服务;
2小时内完成
***
 

2、如果系统硬盘不可用,根据手册重新配置一台MQ服务器。
3小时内完成

2
F5负载均衡器损坏
一级
启用备用机
备用机已经激活,可按原来方式配置
1小时内完成
***
 

3
有一台小型机出现故障无法使用
视情况而定
1、测试小型机群集和RAC的有效性和切换过程中可能发生的异常;
2、建立完善的备份策略和测试备份的可用
向IBM报修等待故障恢复后加入到群集中
 
正式环境的备份恢复无法测试

4
两台机器都出现故障无法使用
一级
如有可能,准备***系统DB的备用服务器,与正式系统环境配置相同;
建立完善的备份策略
向IBM报修故障处理;
如有备机则按照手册在备用服务器上进行恢复
 
***
 

5
磁盘阵列出现故障无法使用

6
核心交换机故障或网络故障导致网络不可访问***系统
一级
建立完善的网络设备故障切换方案
按相关方案执行
 
 
 

7
Internet网络出口故障
一级
1、申请多个厂商备用出口;
2、测试监测出口切换的有效性;
如无备用出口,则只能向电信报障等待修复
 
***
 

8
外部域名系统故障;造成外网无法用域名访问系统
二级
定期检查外网* 域名状况;
联系域名服务商处理;通知外网用户以IP访问系统;
 
***
 

9
内部域名系统故障;造成内网无法用域名访问系统
三级
定期检查内网 域名状况;配置多台DNS服务器
启用备用的DNS服务器;如果处理时间较长则通知内网用户以IP访问系统;
1小时内完成
 

恢复报告:1 测试目的
2 测试范围
3 测试说明
4 测试方法及使用资源
5 测试演练内容
5.1 数据恢复测试
5.1.1 环境准备
5.1.2 恢复数据
5.1.3 恢复验证
5.2 应用恢复测试
5.2.1 环境准备
5.2.2 恢复应用
5.2.3 恢复验证
5.3 验证结果

davidyeung 发表于 2011-1-18 12:18:55

各位高手,希望多交流啊,不要做路人甲乙丙丁 :D

长河 发表于 2011-1-18 13:48:41

没看见教育和培训、审计计划哦。

长河 发表于 2011-1-18 13:49:04

这些是质量保证措施。

davidyeung 发表于 2011-1-18 13:57:48

好,谢谢指点!:)
对于教育和培训,这个是落地推广时候考虑的,没有在计划中体现
而审计方面,ISO20000建议通过外部审计人员观察和报告,在自身检查方面,测试是检验计划的的缺陷,虽然很多的测试无法保证
页: [1] 2 3
查看完整版本: IT灾难恢复计划