微信号:ICT_Architect

介绍:分析和交流ICT行业最前沿技术,分享云计算、存储、服务器、数据中心、网络、软件定义和虚拟化等相关知识,旨在知识交流、开放共享和共同进步.

灾备建设和规划方法论(附白皮书)

2018-05-01 13:01 Hardy



      关于灾备和业务连续性,前期已经分享了很多技术相关知识,如双活解决方案,数据中心业务负载均衡技术等(整理成文的“技术解析”资料和文章链接如下,请需要的小伙伴可以通过“原文链接获取)。



      但灾备建设的最终目的就是要保护业务的连续性运行,除了技术层面的支撑外,还有人员、规划和流程等非技术决策层面支撑。养兵千日,用在一时。只有技术和规划通力配合,才能在真正发生灾难时保证业务连续性(以下内容参考自英方“中国灾备技术和行业白皮书”,首先关注公众号,然后在底部采用键盘回复关键字“灾备白皮书”获取完整白皮书)。

 

      因此,业务连续性规划是进行灾备建设的大前提。没有业务连续性规划,灾备建设就没有意义,充其量只能做到数据不丢失,不能及时恢复业务运行,而保障业务连续性运行才是真正核心。通过业务连续性规划,分析梳理出各项业务的恢复优先级及其恢复要求(RTO、RPO 以及恢复业务所需的资源等),进行业务连续性规划的方法通常采用国际上流行的DRI 十大最佳惯例:

 

  • ①规划启动与管理 

  • ②风险评估与控制(RA)

  • ③业务影响分析(BIA)

  • ④制定业务连续性策略

  • ⑤应急准备及响应 

  • ⑥编制和贯彻实施业务连续性计划

  • ⑦认知与培训计划

  • ⑧业务连续性计划的演练、审计和维护

  • ⑨危机沟通

  • ⑩与外部机构的协调

 

      这是国际通用BCM规划的方法,适用于企业和业务功能,当然也适用于信息系统。业务连续性规划确定了保护业务的各项要求(如RTO、RPO等),支持业务运行的信息系统自然就要根据这些要求来确定相应的信息系统恢复目标和恢复策略。

 

      另外,通过业务连续性规划梳理出业务的恢复要求和恢复优先级后,就要根据这些要求来梳理支持这些业务的IT 应用,同样需要分析出这些IT 应用的恢复优先级和恢复指标(RTO、RPO,以及恢复所需的资源等)。

 

      灾备规划采用的方法与业务连续性规划的方法基本一致,主要区别仅在前者针对的是支持业务运行的IT应用和系统,后者主要关注的是业务流。这里针对IT应用和系统的恢复要求应该与针对业务的恢复要求相匹配。通过灾备规划,确定所有支持业务运行的IT系统的各项恢复指标,并制定IT系统的恢复策略以及IT系统的恢复计划。

 

      根据灾备规划对支持业务运行的IT 系统提出的恢复要求和恢复策略来设计灾难恢复技术方案,例如同城灾备、异地灾备、两地三中心、双活、云灾备等等。需要注意的是,评价这些技术方案的适用性时,并非恢复时间越短就越好(恢复时间越短往往成本也越高),满足灾备规划确定的恢复要求才是最为重要的。只有满足灾备规划提出的恢复指标要求、技术成熟可靠、成本效益高的灾备方案才是最佳选择。

 

      灾备方案的实施是确保所设计的灾备方案真正有效的重要环节,需要制定详细的工作计划,包括场地选址、产品选型、服务商选择、资源保障、项目管理、验收评审、演练测试等内容。同时还应该根据灾备设计方案,结合业务连续性规划要求,制定出完整的灾备计划(包括灾难应急响应总体预案、危机沟计划、各系统的专项应急预案等),确保各部门在灾难发生时能够统一协调地行动。

 

风险分析与业务影响分析


1. 风险分析


      企业需要根据自身所处环境的实际情况,确定IT运行环境中存在哪些无法接受的物理威胁或者可能发生的灾难,并对灾难发生的可能性、目前可能的防护措施的有效性和该灾难所威胁的资产价值进行分析,最终得到带有优先级别的需要防范的风险及其分级列表,并制订出可能的处理方法。例如接受该灾难发生时的风险而不进行防范、制订该灾难的预防措施或者采取购买保险等风险转嫁策略。


2. 业务影响分析


      在本阶段,通过走访各业务部门的相关人员对各种业务流程进行分析,了解各种业务流程对企业的重要性和时间敏感性。同时根据相关的评判原则,得出在核心流程由于灾难发生而无法正常进行时企业本身的损失情况。这种损失可能是可以量化的,例如单据的丢失、计算的错误而导致的直接损失;也可以是无形的损失,例如客户满意度及竞争优势的丢失。通过对可量化和不可量化损失的综合考虑,得出各种核心业务流程对于灾难受损的可容忍程度,并作为确定其恢复优先级的决策依据,最终确定这些核心业务流程的恢复要求指标。

 

灾备方案设计


      结合分析阶段的分析成果,以及企业本身在灾备上的投入,制订企业短期、长期范围内的灾备策略和目标,并有意识地将企业本身的人员组成和组织架构做出调整以适应策略要求。本阶段最为重要的是制订出灾备的具体实施方案。

 

      灾备方案可供选择的范围很大,但所有的灾备方案都必须考虑的因素包括恢复时间、实施与维护灾备策略所需的投入等。灾备恢复时间的需求越短,所需的实施成本就越大,实施难度也就越高。

 

灾备计划制定


      有了IT 系统的恢复方案,只能够保证在灾难发生时,IT 系统的恢复能够支持业务的恢复目标,但是业务的连续性并不只是IT 系统的恢复。因此,灾备方案在设计中还需要涉及包括办公场地、办公设备、紧急流程、指挥架构、人员调度等多方面、多部门的综合考虑。只有业务执行过程的每一个环节都达到灾备目标的要求,才能够认为灾备方案的目标得到了满足。因此,需要制定一个完整的灾备计划,来统一协调各部门在灾难发生时的行动计划。同时制定灾备计划时需要确保其与企业业务连续性计划协调一致。一般来说,每个企业都应该设立一个由领导挂帅,各业务部门和IT 部门联合组成的一个灾备指挥小组。

 

灾备方案实施


      灾备体系的搭建经常需要涉及到公司内多个部门的协调,因此在方案实施的过程中,需要把每项工作的内容、目标要求、实施的方法步骤以及督促检查等各个环节都做出具体明确的安排,具体落实到工作分几个阶段、什么时间开展、什么人来负责、领导及监督如何保障等。

 

      方案在实施的过程中具有很强的规定性,表现在一方面,方案实施要根据方案分析和方案设计的具体操作流程进行,而不能是随意进行有效的灾备操作流程往往可以节省大量的时间和减少错误。反之,就会带来不必要的损失。例如,在虚拟环境下的灾备系统,就要提前规划需要用几台服务器去虚拟出三十、四十,甚至上百的虚拟服务器,而且需要长期运行。如果没有好的操作流程,不利于灾备中心的运维。另一方面,方案实施工作具有强制性,一旦开启,相关部门单位就要按照具体计划认真组织实施

 

灾备演练


      灾备演练是基于不同灾备类别中某一特定的场景而进行的,灾难场景不同、灾备技术复杂度不同,演练的技术过程与周期也不尽相同。


      具体的演练包括:系统更新、调整,原有的灾难恢复预案是否仍然有效;灾备系统是否需要进行有效的更新;系统切换流程、步骤是否有遗漏和错误;灾备系统的切换时间是否可以满足业务的恢复需要等。常见的三种灾备演练方式包括:


      桌面演练也叫“沙盘推演”,是最基础的灾备演练方式。通过对初始灾难恢复预案的一个理论验证,进而测试急响应预案和灾难恢复体系的完整性和有效性,使相关人员了解应急响应及业务恢复流程,全面验证技术及业务管理指挥、流程操作、协调配合等方面的综合能力。


      模拟演练以桌面演练结果为基础,由IT 部门与相关业务部门参加模拟演练,采用模拟数据和模拟业务系统运行演练。模拟演练的过程高度接近真实灾难发生时的处理过程,通过演练可以检验灾备系统的可用性、灾难恢复预案的可行性以及增加参演人员对灾难处理过程的感知度与配合的默契度。


      作为灾备演练的最高的阶段,实战演练的场景最为真实,更易于发现潜在问题并进一步完善灾备系统,但随之而来的就是演练成本的提高。因此,在实战演练中,也会存在很多挑战,这时,关键是使其理解并支持演练能够周期性地进行,同时发现问题及时改进才是成功的演练(无论是否用到真实环境),应避免流于形式的表演。


      专家服务(ADTIS)是灾备行业常见的咨询服务,以英方为例,已经推出的专家服务业务,旨在减少中间环节、降低无效成本,并最终实现快速部署、高效可靠的专家级业务服务体系,从0 到100全程专家指导;专家服务特点是:


  • ①针对性强、效力高、可执行;

  • ②阶段划分和决策点明晰;

  • ③经验证的模块化实施方法;

  • ④终身服务。专家服务的5个阶段如下:


评估阶段(Assessment)


      需要对企业的整体灾备目标及投入进行有效的评估,包括RPO、RTO的相关指标以及IT 系统的整体架构,主要以专题会的形式进行,并且就相关事项形成书面纪要,评估阶段主要以免费的形式进行,但由于评估阶段也需要投入大量的资源进行对接,因此部分服务会保留收费的权利。


设计阶段(Design)


      针对评估的具体结果,在双方合作意向明确的前提下,由专家团队主导进入设计阶段。此阶段将会直接影响项目的最终交付。因此,英方将以经验证过、定的系统为蓝本提供完善可执行的灾备设计规划,并在此过程中,积极听取需求方的意见。


测试阶段(Test)


      为保证项目的顺利进行,英方将对已经设计好的灾备系统进行实地测试,同时保证在测试的过程中不对用户的现有系统造成影响,测试阶段主要包括软件的具体使用、功能的具体实现以及灾备演练。测试可以暴露灾难恢复计划的不足之处,测试也可以帮助我们评估计划执行人员的快速响应能力和效率,灾难恢复计划的每一个要素都必须测试,保证其恢复过程的准确性。


实施阶段(Implementation)


      此阶段指项目的现场或远程交付阶段,此阶段的主要工作是项目实施人根据设计、测试阶段确认的具体需求内容进行具体功能的实现工作。在功能实现的过程中,项目实施人员将记录软件实现的详细过程,便于售后服务之用。每一个实施技术人员都将严格按照要求记录、存档。


维护阶段(Support)


      在新需求、新技术的不断涌现以及新的内部和外部规则的变化过程中,IT 系统也会随之改变,所以要确保灾难恢复计划的有效性就必须定期的检查和修改计划。项目上线运行后,系统运营维护的主要工作将交由客户进行,但英方将提供一整套完善的技术支持服务,保证在产品生命周期内有效性。


技术相关文章



温馨提示:

请搜索“ICT_Architect”“扫一扫”二维码关注公众号,点击原文链接获取更多技术资料

求知若渴, 虚心若愚—Stay hungry, Stay foolish

 
架构师技术联盟 更多文章 OpenStack关键技术系列: Libvirt基础知识 致敬那些用键盘改变世界的劳动者 白话智能合约与区块链技术 HPC高性能计算知识: 异构并行计算 [精华] RDMA技术原理分析、主流实现对比和解析
猜您喜欢 robbin谈管理:坦诚的力量 最棒的leader,把团队成长放在第一位 【第1027期】常见排序算法之JavaScript实现 福利第二弹 | 寻找全中国使用TensorFlow的开发者和公司 Mycat:国内最活跃的、性能最好的开源数据库中间件