挨踢达人 发表于 2011-10-3 16:42:13

服务持续性战略之风险预防、灾难恢复方案的选择

      学习资料: ITIL培训基地专家讲堂直播 300期视频回放


大部分的企业都希望在风险降低和恢复规划方面达到某种平衡。风险降低措施、业务恢复行动以及IT恢复方案之间是很有明显区别的。 威胁是不可能完全消除的,比如在大楼附近的一场火灾也可能烧毁您的大楼。此外,降低某一种风险又可能导致另一种风险的增加,如外包就可能增加安全方面的风险。

   一.预防措施

      在充分考虑了预防措施的成本和风险的级别后,可以根据风险分析的结果才需预防措施。有些措施的目标是减小意外事件发生的概率或影响,因此也可以缩小恢复计划的范围。例如,可以针对灰尘、超高温或超低温、火灾、漏水、电力中断以及失窃制定预防措施,而将其他风险留给恢复计划来处理。
      要害/关键控制法是用得最多的预防形式。它可以消除大部分的薄弱环节,例如通过建立自己的电力和水供应储备来应对电力和水供应方面的薄弱环节。但是,随着非现场恢复变得越来越困难,这种方法的应用也会带来其他诸如网络中断或网络拥塞等薄弱环节。要害/关键控制法可适用于大型的计算机中心,这些大型的计算机中心一般都太复杂,以至于不能通过恢复计划来解决。如今,增强要害/关键控制法的快速反应能力是至关重要的,即及时发现问题并在失控之前将其解决的能力。

   二.选择恢复方案

      如果还存在部分没有被预防措施消除的残余风险,则应当将这部分风险交由恢复计划来处理。恢复方案应该提供下列措施来确保业务的持续性。

    1。人员和场地---如何应对其他假定情况的发生,所需要的家具、运输和履行的距离、以及支持业务所需要的关键人员;
    2。IT系统和网络---恢复方案将在下面讨论;
    3。支持服务---电力、水、电话、邮政和快速服务;
    4。存档---文件、文档、纸质系统和参考资料;、
    5。第三方服务---例如电子邮件和网络服务提供者。


   下面举例几种快速恢复IT服务的方案

    1.不做任何反应---在这种方法下,很少有业务能够有效地运作。运用这种方法的目的是表明尚未查明情况。声明在没有IT恢复设施的情况下仍可以继续运作的部门可以给人以这种印象,即在他们的眼里,那些丧失的服务对该业务部门的业务运作提供的支持微乎其微,因而也是针对这项服务查明,这种方案是否可以接受,例如,作为一种短期的解决方案。

    2.回复至手工(基于纸质的)系统---这种方案对于那些对业务有关键性影响的服务来说是不可接受的,因为一般来说缺乏足够的具有使用传统系统经验的人员。而且,纸质系统对于那些不甚重要的、小得服务仍然是可行的。大部分的恢复计划都包括一些基于纸质的备份程序。例如,为一个信用卡终端所制定的恢复方案可能是使用纸质信用卡单据。

    3.互助协议安排---当两个组织具有类似的硬件并同意在灾难发生时互相提供相关设施时可以使用这种方案。采用这种方案时,两个公司必须达成一个协议并确保所有的变更都得到协调从而使双方的硬件环境都处于可互换的状态。能力管理应当确保储备的能力没有用于其他用途,或能够被快速地释放。然而,这种方案在如今的分布式计算机环境中并不能很有吸引力,因为在分布式环境下对独立处理能力和高可用性系统的需要越来越大,如ATM和在线银行等。

    4.逐渐恢复(冷支持)---这种方案适用于那些在一段时间内没有IT服务也能运作的企业。在这种方案下,可以安排在一间空的计算机房为企业提供约定的固定设备,或者将移动的计算机房运至企业所在的位置,为企业提供移动设备。该计算机房应当配备电力、空调、网络设备以及电话连接。该恢复方案可以在与外部供应商签订合同后实施。这种方案的优点在于,设备总是随时可用的。其效益和成本对于固定设备和移动设备是不同的,并且与下列问题相关:

         与设备的距离---很少有提供商提供固定设备。这些设备可能是再原理故障现场的一个地方,这是一个在使用移动设备时可以避免的缺点。
         时间---放置固定设备的场所一般只是在有限的一段时间内可用。
         时间延迟---运送需要的计算机硬件可能要花费一些时间。
         网络---通常难以提供恰当的网络设备。移动设备所需的网络连接可由大楼里用于原来正常运作的网络设备来提供。

    5.中期恢复(暖恢复)---这种方案可以使服务在接入一个类似的运作环境经历一段短暂过渡期便可以继续正常运作。这种方案存在三种具体的方式:

         内部式恢复(相互支撑)---如果企业有多个办公场所或可用于生产的专门的测试环境,可以用这种内部式恢复方案。这种方案可以在最短的过度时间内完成全面恢复。那些具有多个分布式系统的组织通常对这种方法进行一定的变动,即将所需的能力保存在每个系统中。这些备用的能力由能力管理进行监控(有点类似于互助协议安排式的恢复方案)。

         外部式恢复---由第三方恢复组织提供商业服务,这些组织通常是为多个客户服务的。成本在这些客户之间进行分摊,并且依赖于所需要的硬件和软件以及约定的设备提供的时段。这种安排通常同来作为建立一个冷支持设备所需时间内的一个过渡。这种方法一般也是比较昂贵的,设备一般都在比较远的位置。

         移动式恢复---这种方案所需的基础设备一般都是用一辆拖车装载着。这辆拖车可作为一间计算机房并配备了空调等环境控制设施。IT部门必须提供一个位置来停放该拖车,并且在离大楼一定距离的指定位置提供电力供应、数据和通信连接等设施。这种方案的优点在于缩短了响应时间和企业现场的距离。这种方案只适用于有限的几种硬件平台。一些大的硬件供应商通过众多装备了标准化硬件配置的拖车来提供这种服务。按照约定的次数,如一年一次,拖车将到企业所在地测试有关的恢复安排。

    6.立即恢复(热启动、热支持)---这种方案提供了即时的或非常快速地恢复服务,如在不超过24小时内。这可以通过提供同样的运营环境、镜像有关的数据,甚至在可能的情况下复制生产流程来实现。这种方案需要可用性管理的紧密合作。

    7.上述方案的组合---有些情况下,应急计划可以提供一个更昂贵但时间更短的恢复方案连接不作恢复和引进一个耗时较长但更便宜的方案之间的时差。例如,一个装载了运营性计算机中心(移动式热启动)可以提供一个临时性的解决方案直到移动设备建立起来和新的主机送到(移动式冷启动)。在大楼装修和新的主机运到大楼里后,正常的运作就可以恢复。

jadeloyalbird 发表于 2011-10-8 23:31:53

顶,谢谢分享

kiven8282 发表于 2011-10-18 21:21:33

页: [1]
查看完整版本: 服务持续性战略之风险预防、灾难恢复方案的选择