ITIL中有一个持续性管理,其中的一个核心是灾难恢复计划(disaster recovery planning,DRP),它实施的是一个技术框架,支持在灾难发生之前、之中、之后的业务需求。其主要目的是将系统风险降低到可接受的程度,确保重大业务中断事件发生后,能使用一种可接受的经济方式恢复关键的业务运作。 DRP也是业务持续性计划(business continuity planning,BCP)中子计划,事实上,在企业中业务持续性计划是由业务部门的领导制定,而DRP是由IT部门来领导。 如果一个IT部门/组织没有灾难恢复计划,那是不可想象的,那灾难恢复计划的制定有哪些步骤呢?下面就个人经验分享: 1、至少安排一个执行人员负责,此人需要熟悉业务方面操作,可以寻求向业务部门请一位,事实上,执行人员需要确保IT设施受到保护。 2、成立团队,这些需要考虑的人员是技术人员,特别重视的是这些人员中必须有灾难恢复计划的经验,若无,建议向外公司请顾问 3、确定支持关键业务功能的应用程序/系统 4、确保这些系统的关键数据是有备份的,而且是可靠的 5、制定计划,确定在发生灾难时,使用的是外部资源还是内部资源 6、对这个计划进行实施演习,如果成功,则为所有的应用系统设计一个更加全面的恢复计划。则形成一套方法模板 灾难恢复计划的例子模板: (1)恢复计划概况及规范 a.计划的目的和目标 b.人员安排及责任描述 c.恢复行动总结 (2)灾难报警及行动过程评估 a.恢复管理初始通报 b.领导通报 c. 灾难确认和评估 d.灾难恢复计划行动和恢复人员通报 (3)灾难恢复管理过程 a.恢复操作管理 b.恢复操作控制 c.支持协作部门 (4)处理条件及操作服务过程 a.建立替代操作或者备份区域(如果可行的话) b.恢复和重建基本的数据和信息 c.激活备份的计算机工具 d.激活备份的通讯及网络工具 e.激活基本处理及操作服务 f.激活终端用户界面和服务 (5)恢复过程工具 a.激活损坏评估以及对建筑物、设备、软件、数据、信息和供应残存价值评估 b.修理及置换受损场所 c.重新激活备份场所 (6)激活厂家支持 (7)计算机中心服务灾难水平说明 a.表明当影响了企业计算能力的灾难发生之后需要提供的服务水平 b.这份服务说明表必须被包括在“服务水平协议”之中,并且向所有使用IT部门提供的IT服务说明 例如: 序号
| 服务
| 故障预见
| 故障级别
| 故障预防措施
| 故障处理和恢复措施
| 要求时间
| 责任人员
| 备注
| 1
| ***
| MQ服务器硬件损坏,造成到***系统通讯中断
| 二级
| 1、准备备用环境:
以另一台同型号服务器做备用机--目前是***系统的四台AP服务器中的一台(具体服务器名);
在(具体服务器名)预先安装配置MQ环境;
2、保证系统安装配置指南的可用性和练习;
| 1、如果硬盘无故障,将一台***系统的AP服务器(IP地址)的硬盘拔出、而将MQ服务器的硬盘拨下来插到**ip的服务器上使用,***服务器停止提供***的AP服务;
| 2小时内完成
| ***
|
| 2、如果系统硬盘不可用,根据手册重新配置一台MQ服务器。
| 3小时内完成
| 2
| F5负载均衡器损坏
| 一级
| 启用备用机
| 备用机已经激活,可按原来方式配置
| 1小时内完成
| ***
|
| 3
| 有一台小型机出现故障无法使用
| 视情况而定
| 1、测试小型机群集和RAC的有效性和切换过程中可能发生的异常;
2、建立完善的备份策略和测试备份的可用
| 向IBM报修等待故障恢复后加入到群集中
|
| 正式环境的备份恢复无法测试
| 4
| 两台机器都出现故障无法使用
| 一级
| 如有可能,准备***系统DB的备用服务器,与正式系统环境配置相同;
建立完善的备份策略
| 向IBM报修故障处理;
如有备机则按照手册在备用服务器上进行恢复
|
| ***
|
| 5
| 磁盘阵列出现故障无法使用
| 6
| 核心交换机故障或网络故障导致网络不可访问***系统
| 一级
| 建立完善的网络设备故障切换方案
| 按相关方案执行
|
|
|
| 7
| Internet网络出口故障
| 一级
| 1、申请多个厂商备用出口;
2、测试监测出口切换的有效性;
| 如无备用出口,则只能向电信报障等待修复
|
| ***
|
| 8
| 外部域名系统故障;造成外网无法用域名访问系统
| 二级
| 定期检查外网* 域名状况;
| 联系域名服务商处理;通知外网用户以IP访问系统;
|
| ***
|
| 9
| 内部域名系统故障;造成内网无法用域名访问系统
| 三级
| 定期检查内网 域名状况;配置多台DNS服务器
| 启用备用的DNS服务器;如果处理时间较长则通知内网用户以IP访问系统;
| 1小时内完成
|
|
恢复报告: 1 测试目的
2 测试范围
3 测试说明
4 测试方法及使用资源
5 测试演练内容
5.1 数据恢复测试
5.1.1 环境准备
5.1.2 恢复数据
5.1.3 恢复验证
5.2 应用恢复测试
5.2.1 环境准备
5.2.2 恢复应用
5.2.3 恢复验证
5.3 验证结果 |