一、灾备主要术语
1.灾难备份(Backup for Disaster Recovery):为了灾难恢复而对数据、数据 处理系统、网络系统、基础设施、业务和技术等相关人员进行备份的措施。
2.灾难恢复(Disaster Recovery):为了将信息系统从灾难造成的故障或瘫痪 状态恢复到可正常运行状态、并将其支持的业务功能从灾难造成的不正常状态恢 复到可接受状态,而设计的活动和流程。
3.灾难备份中心(Backup Center for Disaster Recovery):灾难发生后,接替 生产中心进行数据处理和支持关键业务功能运作的场所,包括备用数据中心、备 用工作环境、备用生活设施等。形成灾难恢复能力还需配备相关业务、技术等人 员,并建立相应的运作机制。4.灾难备份系统(Backup System for Disaster Recovery):用于灾难恢复目的, 由数据备份系统、备用数据处理系统和备用网络系统等组成的信息系统。
5.灾难恢复能力(Disaster Recovery Capacity):在灾难发生后利用灾难恢复 资源和灾难恢复预案及时恢复和继续运作的能力。
6.业务影响分析(Business Impact Analysis,简称“BIA’’):分析业务功能及 其相关信息系统资源、评估特定灾难对各种业务功能的影响的过程。
7.恢复时间目标(RecoveryTimeObjective,简称“RTO”): 灾难发生后, 信息系统或业务功能从停顿到必须恢复的时间要求。
8.恢复点目标(Recovery Point Objective,简称“RPO"):灾难发生后,系 统和数据必须恢复到的时间点要求。
二、数据备份技术
目前,数据备份技术主要包括在线备份技术和远程磁带备份技术。
2.1 数据在线备份技术
所谓在线备份,指的是将用户数据自动通过网络备份到远程数据中心的数据备份方式。相对于本机备份和其他储存介质备份,在线备份具自动、安全、便捷 等优势,而安全性是在线备份的最突出特点。
1.数据在线备份技术主要功能
网络数据存储管理软件是指在分布式网络环境下,通过专业的数据存储管理 软件,结合相应的硬件和存储设备,来对全网络的数据备份进行集中管理,从而 实现自动化的备份、文件归档、数据分级存储以及灾难恢复等。为在整个网络系 统内实现全自动的数据存储管理,备份服务器、备份管理软件与智能存储设备的 有机结合是这一目标实现的基础。
2.数据在线备份技术工作原理
网络数据存储管理系统的工作原理是在网络上选择一台应用服务器(当然也可以在网络中另配一台服务器作为专用的备份服务器)作为网络数据存储管理服 务器,安装网络数据存储管理服务器端软件,作为整个网络的备份服务器。在备份服务器上连接一台大容量存储设备(磁带库、光盘库)。在网络中其他需要进行数据备份管理的服务器上安装备份客户端软件,通过局域网将数据集中备份管理到与备份服务器连接的存储设备上。
网络数据存储管理系统的核心是备份管理软件,通过备份软件的计划功能,可为整个企业建立一个完善的备份计划及策略, 并可借助备份时的呼叫功能,让所有的服务器备份都能在同一时间进行。备份软件也提供完善的灾难恢复手段,能够将备份硬件的优良特性完全发挥出来,使备份和灾难恢复时间大大缩短,实现网络数据备份的全自动智能化管理。3.数据在线备份策略
日常备份制度描述了每天的备份以什么方式、使用什么备份介质进行,是系 统备份方案的具体实施细则。在制订完毕后,应严格按照制度进行日常备份,否 则将无法达到备份方案的目标。数据备份有全备份、增量备份、差分备份、按需 备份等多种方式。4.灾难恢复策略
灾难恢复措施在整个备份制度中占有相当重要的地位。因为它关系到系统在 经历灾难后能否迅速恢复。灾难恢复操作通常可以分为两类。第一类是全盘恢复, 第二类是个别文件恢复,还有一种值得一提的是重定向恢复。
2.2 远程磁带备份技术
远程磁带库、光盘库是指通过网络将数据传送到远离生产中心的磁带库或光 盘库系统。本方式要求在生产系统与磁带库或光盘库系统之间建立通信线路。磁 带灾备指采用磁带复制技术,在通过磁带库备份数据的时候,同时备份两份,一 份留在本地,一份拿到异地保存,以用于灾难时的恢复。采用这种灾备方式,容易实现并且只需要很少的投资,但是会有数据的丢失,恢复的时 间也会比较长。
磁带异地备份:数据定时备份到磁带,异地保存。在灾难恢复时,需从备份 磁带中重新安装操作系统、应用系统、业务数据,恢复数据比较长。
三、数据复制技术
从一个完整的IT应用系统角度来看,应用系统可以分为不同的层次。首先位 于最上层的是完成特定功能的应用软件层,其次是这些应用软件所使用的通用数 据库软件层,再次是应用软件与数据库软件运行的操作系统环境,如果该应用系 统的存储类型是基于SAN网络的,那么操作系统层的下一层就是SAN网络层,操 作系统就是通过SAN网络与最下层的存储设备层相联的。
从广义上来看,应用系统自上而下可以分为应用层、数据库层、系统层、SAN 网络层、存储层五个层次。在应用系统的任何一个层次上都可 以实现数据备份和复制,以实现应用系统的容灾设计。
从图可以看出,基于应用系统的五个层次,可以对应五种不同原理的数据备份与复制技术,即基于应用级的数据备份与复制技术、基于数据库软件的数据备份与复制技术、基于系统的数据备份与复制技术、基于SAN网络的数据备份与复制技术、基于存储的数据备份与复制技术。五种复制技术的原理、工作模 式、技术特点如下。
3.1 基于存储的数据复制技术
利用高性能磁盘阵列(硬件层次)的高级数据复制功能,通过存储子系统之 间的通讯,并结合一些主机端的管理工具,来实现用户端和灾备中心之间的数据 传输复制。在灾难发生时,不需要主机干涉或占用主机资源,实现应用处理过程 的恢复,将关键数据的损失降至最低。
1.基于存储的数据复制技术原理
存储设备是指存储的物理实体,如:磁盘或磁带机。对存储设备的所有管理 功能都是由存储控制器来完成的,存储控制器用于连接SAN或服务器(Servers) 和存储设备。存储控制器的内置功能负责所有与存储相关的执行操作。基于存储 的数据备份与复制技术,可以实现建立在物理上独立的两个存储系统之间完全 的、实时的数据镜像,而两者距离可以是近在咫尺或相距千里之遥。
2.基于存储的双中心数据复制模式
(1)同步复制模式:存储级的同步数据复制技术可以在两个同构的企业级 存储系统之间实现实时的逻辑卷镜像。这以存储为基础的、实时的、与应用无关 的数据远程镜像功能,通过光纤通道,以逻辑卷为基本单位,将本地存储设备上 的数据同步镜像到远端存储设备上,实现较为简单,是无数据丢失且具有完全恢 复功能的灾难恢复解决方案。在同步模式的情况下,来自主机的数据被写往本地 连接的磁盘系统,该系统将数据转发给远地点连接的磁盘系统。只有当两个系统 都拥有数据的拷贝以后,本地系统才会向主机返回一个I/O完成指示。同步远程 拷贝能够在远地点提供最新的数据,但应用程序会因等待写I/O操作的完成而被 延迟。由于距离的限制,这种方式也叫做“同城镜像 (Metro Mirror)"
同步复制模式的数据在两个地点之间是同步传输的,源与目的磁盘系统之间 的距离将决定应用响应时间。在实际生产环境中,生产和备份数据中心之间的距离成了限制技术使用的关键问题。测试结果表明:随着距离的增加,I/O的响应 时间并无很大差别,但随着I/O量的急剧增加到一定值之后,I/O的响应时间的 差别会随着距离的增加而有较明显的增加,在光纤距离50-60公里以内实施同城 镜像的I/O响应时间较为接近,而超过60公里,在一定I/O量之后,响应时间会 有较明显的增加。距离的增加导致数据写入延迟的增大,直接影响应用系统的速 度,所以同步PPRC使用的范围局限于近距离的同城灾备中心。
同步模式的特点是:对系统整体的性能存在一定的影响;对于远端的目标卷 不存在数据丢失风险;源卷与目标卷间存在距离限制。(2)异步复制模式:当本地和远程数据中心的距离达到几百或上千公里的 情况下,延迟将是影响两地数据同步的最大的因素,这种情况下一般采用异步数 据复制的方式。来自主机的数据被写往本地连接的磁盘系统,该系统立即向主机返回一个I/O完成指示。数据在很短的一段时间(在实际中通常在数秒到一分钟左右)以后被送往一个远程磁盘系统。异步远程拷贝对应用程序性能的影响最小, 但远程磁盘系统在数据的更新程度上与本地系统相比会有一个时间差。单纯的异步拷贝由于线路距离较远等原因,本地磁盘和远地磁盘可能会有逻辑卷读写顺序上的差异。
在异步模式的情况下,系统对存储设备的操作指令在源卷操作成功即对系统 应答为成功,再将操作指令传送至目标卷执行。为了解决本地磁盘和远地磁盘可 能存在的逻辑卷读写顺序的差异,有的磁盘系统提供带有一致性组的异步远程数 据拷贝。在这种方式下,远地的磁盘系统会将先收到的写请求缓存起来(比如上面的数据C),等到它前面的数据(A、B)到达后,再按照顺序写盘。这种方式 也叫做“全局镜像(Global Mirror)”
对于存储层的远距离异步数据备份,相对于同步复制方案或其他层的复制方 案(如操作系统层、应用层),要多耗费一份存储容量。异步模式具有以下特点: 一是对于远端的目标卷存在妙级的数据丢失风险;二是对系统整体的性能不存在 影响;三是源卷与目标卷问不存在距离限制。(3)自适应模式:在自适应拷贝模式的情况下,数据在源卷存储成功即返 回成功,目标卷的数据传送是在整合一段时间的存储操作后定时进行传输的。这是一种将大批量数据传送到异地设备的理想解决方案。
自适应模式的特点是:对于远端的目标卷存在分钟一小时级的数据丢失风 险;对系统整体的性能不存在影响;源卷与目标卷间不存在距离限制。
3.2 基于存储的多中心数据复制模式
在需要多数据中心数据复制的情况下,可以利用基于存储的双中心数据复制 模式组合形成基于存储的多中心数据复制模式。多中心数据复制模式具有共同的 优点:无数据丢失或单点故障:地理位置上分散的保护:无距离限制。
3.3 数据复制星型方案
生产站点与同城备份站点之间建立基于存储的同步数据复制,生产站点和异 地备份站点之间建立基于存储的异步数据复制,使客户可以在同城的备份站点获 得零数据丢失的拷贝,在异地的远程站点也可以维持一份与生产数据时间相差很小的备份。另一方面,星型模式在两个远程备份站点之间也建立了数据复制链路 的连接,因此当生产站点发生灾难时,可以在不需要做任何配置改动的情况下, 在同城站点和异地站点之间以增量的方式建立基于存储的异步会话,实现数据保护。
3.4 数据复制一对二方案
一对二解决方案是建立在基于存储的数据复制的技术的基础上,允许从同一 个卷并行的向两个远程站点执行同步复制操作和异步复制操作的多站点数据保 护方案。一方面,生产数据首先利用同步复制技术在同城灾备中心内实现同步的数据保护;另一方面,利用异步复制技术技术,在远程灾备中心 对生产中心的数据实现异步模式的保护。一对二方案可以在同城灾备中心发生灾 难时,仍然维持对生产中心的数据保护。
3.5 数据复制多跳方案
此方案是在基于存储的解决方案的基础上发展而来的,意为多级远程数据镜 像,是专门为需要超远程数据镜像的客户设计的解决方案,如图3.8所示。采用 同步模式实现同城灾备中心零数据丢失的保护,然后再从同城备份中心以自适应拷贝模式运行到异地灾备中心,以实现最终的保护。
3.6 基于存储的数据备份与复制技术特点
基于存储的复制技术较为成熟。在业务持续性方面,即使是在可能出现磁盘错误的情况下,也能保证业务应用程序的持续运行。在灾难恢复方面,灾难发生时,可以快速地在备份现场实现数据的恢复。在数据中心迁移方面,可以将应用系统的停顿时间缩短到几分钟。在工作量迁移方面,与数据中心迁移类似,是进行常规的软硬件维护时缩短应用程序失效时间的理想手段。在工作量压缩或消除备份的处理时间方面,通过利用第二数据拷贝缩短或消除备份的处理时间。但是只能对相同产品,相同系列型号的存储产品实现复制,响应的存储软件等也必须是统一厂商的。实施成本高,按照存储的数量和磁盘容量来购买软件,容量的利用率低,存在存储孤岛。难管理,没有统一的管理控制。
四、基于SAN级的数据复制技术
4.1 基于SAN网络的数据备份与复制技术原理
SAN(StorageAreaNetwork)装置是在业务主机和存储之间建设存储网络设 备,它相当于一个接口将主机的I/O传递给存储系统,自身完成I/O的记录和远程复制。基于智能存储设备的数据复制有一个局限性,就是主中心和灾备中心两地的存储设备必须完全相同,如果遇到是不同厂商或者不同型号的设备,可能就 无法实现,但基于SAN装置数据复制技术可以很好解决这类异构存储系统的问题。基于SAN网络的数据备份与复制技术是通过SAN网络的基本模块SAN交换机或使用导向器(Director)来实现的。SAN交换机或使用导向器(Director)位于应用系统与存储设备中间的SAN网络。基于SAN网络的数据复制技术的原理是将存储智能加入到SAN的网络中,可以为各种不同的存储设备提供了一个统一的数据复制平台。由于这些复制功能是由智能交换机本身提供, 与存储无关,所以允许源磁盘卷和目标磁盘卷可以存在于不同品牌的磁盘阵列上。
4. 2.数据复制模式
基于SAN网络的数据复制技术同样支持同步复制模式、异步复制模式、定点复制模式。特别需要指出的是,基于SAN网络的数据复制技术可以创建多个单点时间快照,可以方便的恢复到灾难发生前的任意一个快照时间点的状态。在遇到内在的渐变式灾难最终发生时,这种能够保留历史复制数据途径的能力为数据恢复提供了极大的方便。譬如:Impostor可保留256个单点时间视图快照,可对一 周的历史数据进行记录。
存储网络级数据容灾,一般通过专门的设备,为远程复制提供I/O路径,实现基于SAN装置层次的数据容灾。通过在用户端和灾备中心的 系统中配置专用服务器,在其上安装专用软件。灾备中心的专用服务器可以配置 为定时对用户端专用服务器的数据进行复制,从而实现关键数据的远程复制和保护。传输链路可以选择口网络和FC网络,如果IP城域网或广域网的带宽较低,可以采用异步复制形式。
4.3 基于SAN网络的数据备份与复制技术特点
基于SAN网络的数据复制技术能够实现异构存储间的数据容灾,不受厂商品牌及接口类型的限制;基于IP网的容灾系统,不受地域及距离的限制;基于SAN 网络的数据复制技术扩展性强,适应未来业务的发展,能够支持多种存储协议; 可恢复性强,结合数据库代理模块,确保数据的一致性,可点对点,或多点对一 点进行复制;提供数据的多个版本管理,可以防止渐变式灾难对数据的破坏;SAN 网络设备位于中间层,不占用主机的CPU和存储资源。
基于系统级的数据复制技术
4.3.1 基于系统级的数据备份与复制技术原理
基于系统级的备份技术是基于卷管理软件来实现的,复制软件负责对本地逻辑卷的写操作复制到异地灾备中心,从而实现数据的镜像,如图所示。这种 写操作是对系统而言的,是逻辑上的。当客户端数据发生灾难时,灾备中心数据 可以被接管应用。
4.3.2 数据复制模式
基于系统级的数据备份与复制技术可以提供同步与异步的工作方式。
4.3.3 基于系统的数据备份与复制技术特点
基于系统的复制技术在结合集群、存储、应用构成高等级的容灾体系;基于
系统的复制技术虽然不依赖于存储,但依赖于系统;基于系统的复制技术对主、 备系统间的距离没有限制;影响生产系统性能;扩展性较差;网络带宽较高。
五、基于数据库级的数据复制技术
通过使用基于数据库软件复制技术保证远程数据库的复制。用户端主机安装数据库同步软件的客户端和数据库agent,通过搭建的网络环境和灾备中心数据 库同步软件的服务器端通讯,按照定义的规则实现整库级、用户级、表级、日志级的数据同步。在不同用户端的生产服务器上都部署数据库同步软件的客户端和 数据库agent,可以和灾备中心的数据库同步软件服务器端实现N对一模式的远程 数据复制。
5.1 基于数据库级的数据备份与复制技术原理
数据库系统复制技术一般通过将源数据库的日志传输到远端,并应用到备份 数据库中,使备份数据库与源数据库同步,其工作原理如图所示。
正常状态下,主数据库服务器做数据库的读写操作,备份数据库服务器为只读方式。当主数据库服务器失败时,备份数据库服务器会自动接管主数据库服务 器的事务处理。此时,备份数据库服务器作为主数据库服务器进行数据库的读写操作。
5.2 数据复制模式
基于数据库的数据备份与复制技术可以提供同步、异步、定点复制等模式。
5.3 基于数据库的数据复制技术特点
不依赖于硬件和系统,只依赖于数据库系统;数据备份复制的范围仅限于数 据库中的数据;基于日志的复制,对系统带宽要求较低;主、备数据库间的距离 无限制;利用日志复制往往受带宽和处理能力的限制影响RPO。在容灾项目中, Quest SharePlex for Oracle的数据库复制解决方案,具有支持异构环境、目标数据 可访问、对源系统的影响小、易于安装、管理和实施、灵活性和扩展性强等方面 的技术优势。
六、基于应用级的数据备份与复制技术
6.1 应用级数据备份与复制技术原理
基于应用级的数据备份与复制技术主要是依托应用软件的开发实现的,不同应用软件采用与其相适应的技术手段完成数据的复制与备份技术。
6.2 数据复制技术特点
应用系统开发量大;生产系统与备份系统维护工作复杂;可靠性相比通用备份软件差。
对上述数据复制技术研究表明,五种主要复制技术各有优缺点,从容灾建设从开发投资和服务投资的角度看,以应用级最大、存储级最小。从硬件投入的角 度看,以应用级最小,存储级最大。从实施难度、管理难度和扩展难度的角度看, 以应用级最难,存储级比较简单。存储级容灾技术是目前最为成熟、最容易实现与管理,也是最常用的灾备技术,国内、外有很多成功的案例。为此,商业银行 应该根据应用系统的容灾需求选用合理的容灾技术。各类备份实现技术如图所示。
七、存储系统容灾技术架构
7.1 虚拟化技术容灾架构
7.1.1 基于存储虚拟化技术容灾
(1)技术架构介绍:
基于存储磁盘虚拟化技术是将存储虚拟化功能固化在高端磁盘存储系统的控制器上。这样,虚拟化磁盘阵列可以把连接在同一个SAN 上的其他需虚拟化的存储系统映射成其内置盘,然后对其进行虚拟化管理,虚拟化以后的存储设备对主机透明,其工作原理如图所示。由于虚拟化引擎集成 在磁盘阵列内部,所以可以比较容易的继承磁盘阵列一些固有的高级功能,如快 照、克隆、复制等。
基于高端存储子系统的虚拟化容灾系统架构,其实就是实现多个虚拟化存储池之间的容灾,也是通过高端存储控制器来完成,因此技术架构与存储磁盘阵列 灾备技术实现相同,能够实现两地三中心级联容灾架构、多目标容灾架构、闭环 容灾架构。
(2)功能特点介绍:
基于存储子系统的虚拟化容灾架构,在容灾功能上与存储磁盘阵列灾备架构完全一样,只不过在生产中心或灾备中心增加了存储虚拟化功能。基于存储子系统磁盘阵列的虚拟化存储技术适用于存储设备品牌众多, 难以统一管理的环境,通过存储虚拟化可以实现如下功能:
a. 实现存储整合。通过存储磁盘系统的虚拟化技术可以整合我们多平台、 多档次的存储系统,消除存储孤岛,形成统一的存储池,实现统一管理、统一调度、快速部署。虚拟化存储平台对外部存储管理的过程中,可以采用外部存储本身的数据格式,完全维护了数据在外部存储上原有的方式,因此在数据迁移和整合过程中,不会对原有的数据格式做任何修改,这样使得原有存储系统上数据得 到充分保护,各个方向的数据迁移非常平化。就是未来客户要更换虚拟化平台, 外部存储系统离开虚拟化高端存储后数据可以照常使用。
b. 实现功能遗传。存储系统虚拟化平台可部分替代原有旧存储的传统控制器,对特定应用和环境可以提高被虚拟化磁盘阵列的I/O响应能力,彻底改善低 端盘阵或者就盘阵的性能问题,大大提高了低端盘阵和旧盘阵的使用价值。高端存储的功能将传递给被虚拟化的外部存储,使整个虚拟池内的被虚拟化的外部存 储空间都能够具有高端存储的独特功能,如快照实现存储池内的数据镜像、数据 复制技术实现存储池间的同步、异步数据复制和三数据中心容灾、存储池内的在线数据迁移功能等。
c. 实现数据分级存储。在统一虚拟存储池内部,可以按照业务系统的需求 (容量和重要程度)分配存储空间。可以选择将使用频率最高、访问最密集的数据集中存放在高端存储内部磁盘的一级存储上,而将那些需要归档或者是访问品率降低的非重要数据转移到由高端存储管理的外部中低端存储设备上,这些外部设备可以选择容量更大,成本更低的存储来实现,也可使用已有的旧设备。所有应用访问都不用关心任何后台存储环境的真实变化,仅仅需要访问高端存储虚拟化平台。同时,在存储池内不同层次的存储空间,能够实现在线迁移数据,且不影响生产系统正常运行。分级存储既满足了用户各种集中访问的需要,又能依据数据的时效性和重要性,灵活地进行数据部署,最大限度地降低建设和维护成本, 真正实现数据生命周期管理。
d. 实现统一管理。通过HDS虚拟化技术完成存储整合之后,用户只需要通过高端存储系统管理界面就可以管理整个虚拟化存储池,实现统一管理,降低管 理的复杂度,提高存储资源管理效率。
(3)性能影响评估:
在虚拟化容灾架构中,在考虑容灾技术带来的性能影 响的同时,还要考虑虚拟化技术对性能的影响。在虚拟化架构中,应用系统是通过访问高端存储虚拟化平台来访问被虚拟化的存储空间,与直接访问外部存储相比,应用系统的读性能会有一定的损失(二次读),而写性能可以通过高端存储的数据缓存来实现部分的提高。利用高端存储的高效缓存调度算法,通过虚拟化管理之后,对中低端存储系统的性能会有部分性能提高(在客户实际生产得到了验证),但是并不建议用高端存储去虚拟化其它的高端存储,这样会导致被虚拟化的高端存储性能有下降。同时,为了避免各应用系统之间互相影响,高端存储虚拟化平台可以提供基于缓存的存储分区技术,将整个存储池分成几个独立的部分,隔离各个部分之间的I/O影响,从而避免了多个应用系统并行时的互相影响, 保证了存储池的总体性能。总体来讲:虚拟化存储子系统的容灾技术对生产环境 的性能影响肯定会大于基于存储磁盘自身的容灾技术对生产环境的性能影响。
7.2 基于存储网络虚拟化技术容灾
(1)技术架构介绍:SAN容灾方案是将磁盘容灾技术(数据复制技术)从磁盘控制器层移植到SAN虚拟化控制器层,原理和磁盘容灾技术相同,只是虚拟 化控制器嵌入与磁盘控制器相同的数据复制功能,在同城、异地数据同步、异步 复制时,由虚拟化控制器与虚拟化控制器间互相传输数据,再将数据写入磁盘阵列。
由于虚拟化控制器的产品局限性,现无法完全实现基于存储磁盘级的数据 容灾架构,比较推荐基于SAN虚拟化技术实现的两地三中心容灾有两个技术架 构。通过虚拟化控制器实现生产中心和同城中心的磁盘镜像(距离小于10公里), 同城中心和异地灾备中心间通过虚拟化控制器实现数据同步或异步复制。
(2)功能特点介绍:部署过程无需数据迁移;但需要对现有数据访问磁盘 方式做调整;支持在线数据迁移,实现存储在不同等级存储间迁移;提供集中存 储资源管理和监控;支持同步/异步远程镜像功能。
八、两地三中心容灾架构
基于存储磁盘容灾技术架构主要分为两中心同步数据复制架构、两中心异步 数据复制架构和两地三中心容灾架构。由于两地三中心容灾架构在同城采用同 步数据复制技术,不会造成同城容灾中心数据的丢失,在异地采用异步数据复制 技术,能够抵御区域性的灾难,是最可靠的容灾架构。目前,最主流的企业级用 户选择的大部分是两地三中心容灾架构,主要分为级联容灾架构、多目标容灾架 构、两地三中心闭环容灾架构等三种。
8.1 两地三中心闭环容灾架构
该架构除了本身企业级存储和同步、异步数据复制本身技术优势外,两地三中心闭环容灾架构除了具备普通多目标容灾架构的优势外,还具备特有的优势, 当生产系统切换B中心后,B中心马上可以和C中心建立增量的、有数据一致性的 异步数据复制。这是最为可靠的一种容灾架构,即能够保证同城容灾系统的切换, 也能够保证同城两个节点都发生灾难时,还有远端节点作为保护,大大提升了应 用系统的业务连续性。两地三中心闭环容灾架构如图3.17所示。两地三中心闭环
(3DC Multi.TargetDelta-Resync)容灾架构是HDS目前主流的三中心容灾架构, 绝大多数客户都采用该架构建三中心容灾保护。
在“两地三中心”模式中,存储级灾备和数据库级灾备用的最广泛。存储级灾备是通过对存放在线交易数据的存储设备物理磁盘进行复制来实现 数据的同城和异地传输。数据库级灾备是通过对数据库变化进行复制来实现容灾目标。五种数据复制技术的优缺点比较如表所列。
九、灾难备份解决方案
灾难备份解决方案考虑的因素包括:备份、恢复的范围;灾难备份计划的状态;生产中心与备份中心之间的距离;生产中心与备份中心之间是如何相互连接的;数据是怎样在两个中心之间传送的;允许有多少数据被丢失;怎样保证更新的数据在各份中心被更新;备份中心可以开始备份工作的能力。根据以上主要考虑方面所达到的程度而分为七级,从低到高有七种不同层次的对应的灾难备份解决方案。银行的金融监管系统可根据数据的重要性以及需要恢复的速度和程度,来设计选择并实现灾难恢复计划。
在1992年Anaheim的SHARE78,M028这一会议报告中,自动的异地远程恢复任务被定义有七种层次:
Tier 0 一 无异地数据备份(No off-siteData)。Tier 0 被定义为没有信息存储的需求,没有建立备份硬件平台的需求,也没有发展应急计划的需求,数据仅在本地进行备份恢复,没有数据送往异地。
Tier 1 一 PTAM 车辆转送方式(Piekup Truck Aeeess Method)。作为Tier 1 的灾难备份方案需要设计一个应急方案,能够备份所需要的信息并将它存储在异地,然后根据灾难备份的具体需求,有选择地建立备份平台,但事先并不提供数据处理的硬件平台。
Tier 2 一PTAM 卡车转送方式+热备份中心(PTAM+Hot SITe)。Tier 2 相当于是Tier 1 再加上具有热备份能力中心的灾难备份。热备份中心拥有足够的硬件和网络设备去支持关键应用的安装需求
Tier 3 一电子传送(Electronic Vaulting)。Tier 3 是在Tier 2 的基础上用电子链路取代了车辆进行数据传送的灾难备份。接收方的硬件平台必须与生产中心物理地相分离,在灾难发生后,存储的数据用于灾难备份。
Tier 4 一 活动状态的备份中心(Aetive Secondary SITe)。Tier 4 这种灾难备份要求两个中心同时处于活动状态并管理彼此的备份数据,允许备份行动在任何一个方向发生。接收方硬件平台必须保证与另一方平台物理地相分离,在这种情况下,工作负载可以在两个中心之间被分担,两个中心之间彼此备份。在两个中心之间,彼此的在线关键数据的拷贝不停地相互传送着。在灾难发生时,需要的关键数据通过网络可迅速恢复,通过网络的切换,关键应用的恢复时间也可降低到了小时级。
Tier 5 一 两中心两阶段确认(Two一SITe Two一Phase Commit)。Tier 5 是在Tier4的基础上在镜像状态上管理着被选择的数据(根据单一 commlT 范围,在本地和远程数据库中同时更新着数据),也就是说,在更新请求被认为是满意之前,Tier 5 需要生产中心与备份中心的数据都被更新。我们可以想象这样一种情景,数据在两个中心之间相互映像,由远程two 一phase commit来同步,因为关键应用使用了双重在线存储,所以在灾难发生时,仅仅传送中的数据被丢失,恢复的时间被降低到了小时级。
Tier 6 一 零数据丢失(Zero Data Loss)。Tier 6 可以实现零数据丢失率,同时保证数据立即自动地被传输到备份中心。Tier6被认为是灾难备份的最高的级别,在本地和远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力。Tier6是灾难备份中最昂贵的方式,也是速度最快的恢复方式,恢复的时间被降低到了分钟级。对于Tier 6 的灾难备份解决方案,可以应用两种远程拷贝技术来实现,即PPRC同步远程拷贝和XRC异步远程拷贝。
Tier 7 一 零数据丢失且自动恢复(Zero Data Lossand Highly automated)。Tier 7 是在 Tier 6 的解决方案与自动化(GDPS Geographically Dispersed Parallel Sysplex)的结合,它在保证了零数据丢失的前提下,还能保证系统及其上的应用自动恢复,与人工进行的系统和应用恢复相比,更可靠且缩短了灾备恢复时间。实现方法是GDPS/PPRC、GDPS/XRC.
无论是Tier 6 还是Tier 7 在实现零数据丢失时使用的技术基础都是同步远程拷贝(PPRC)和异步远程拷贝(XRC)它们既有共同的特点,也有实现方法上的差别,它们的相同点如下:保护数据不丢失。
在PPRC方式下,生产中心和灾难备份中心的存盘数据不会丢失。在XRC方式下,仅仅正在传输的数据可能会发生丢失现象,这种丢失现象意味着,当生产中心失效的时候,更新还未在灾难备份中心完成,但数据的丢失程度可通过SDM以及它的参数的设置而减到最小。
9.1 PPRC与XRC具有以下相同点:
(l)应用的无关性
无论是PPRC还是XRC,都是在存储控制器远程拷贝的功能下来自动实现存储数据的镜像,无论使用数据的应用是什么,镜像都会发生,因此不必为不同的应用提供各自的拷贝工具。
(2)支持所有的存储数据
远程拷贝是卷一级的数据镜像,支持所有的存储数据,无论是应用数据还是系统数据,都能被镜像到灾难备份中心。
(3)独立的虚拟运行
在数据写入主存储器并拷贝到远程存储器的过程中,不需要任何应用级用户的介入。
两种远程拷贝技术的区别在于:
- PPRC实现的是同步的远程拷贝,XRC实现的是异步的远程拷贝。
- 在同步方式下,PPRC将确保如果备份卷不能被更新,那么即使源卷更新成功,整个写操作也会返回失败(保证源卷和目的卷的数据彻底一致)同步方式可保证数据不会丢失,更重要的是数据的一致性在这种方式下能够得到很好的保证。
- 在异步工作方式下,XRC通过SDM(System Data Mover)系统软件的控制,在远端更新未完成的情况下,通过本地更新成功向主机返回“写成功”信号.其好处是:在主备机房之间数据链路带宽成为瓶颈时,采用异步方式对数据中心主机生产系统性能的影响不大。
9.2 XRC技术特点
(l) 保证数据一致性。
XRC是基于主机、时钟、存储设备等硬件系统,以及05/390、205、DFSMS等软件系统实现的软硬结合的异步数据复制技术。它不同于其他基于存储设备的硬件磁盘数据复制技术,最大优点是可以随时保证数据的一致性,或者说系统的可恢复性。这对于跨磁盘阵列和跨多主机系统的企业级灾难备份与恢复尤其重要。
(2) 可控性强
XRC是软硬结合的技术方案,系统结构复杂,但可控性强,易于实现灾备系统维护、监控的自动化。
(3) 生产性能损失小
由于XRC是异步解决方案,因此相对于其他同步数据复制技术带来的固定性能损失而言,生产系统的性能损失较小或几乎没有影响;同时,XRC数据复制的数据延迟可以达到秒级。但是,如果XRC性能出现问题,也必然影响生产系统性能,XRC性能的优化实施工作非常重要。
(4) 扩展能力强
耦合XRC技术可以将多个XRC系统祸合在一起并行工作,并保持多个XRC数据复制数据的一致性,最多支持14个XRC系统的祸合,突破了单个XRC系统的容量限制,可以实现数十TB的异步数据复制,使XRC系统具有很好的扩展能力。
(5) 远程拷贝。
XRC可以很好地利用通道延伸技术,如DWDM或CNT技术,实现数千公里的远程数据复制。
9.3 XRC的工作原理
XRC的架构图如下,当主存储子系统完成数据更新后,就会通知应用程序I/O操作己完成,之后DFSMSd年会通知通常运行于备份站点的负责系统数据搬运的SDM,完成从主存储子系统的高速缓存到备份系统磁盘的异步拷贝。由SDM负责异步拷贝时的数据一致性。
由于XRC是异步更新,需要保证目标盘与源盘的更新顺序相同从而保证数据的一致性,所以XRC采用了时间戳的方式。一个跨多台机器的PLEX有一共享的祸合时钟,在生产磁盘源盘的每一个写的操作更新内容会带上时间戳,主盘写完成后立即返回写操作完成信息,同时将更新内容的副本放到CACHE中。源盘端会通过特殊的UTILITY卷(每个UTILITY卷即一个READER)维护CACHE中的更新信息,维护方式是一个UTILITY卷维护一个SIDEFILE文件,用于存放它所管辖的XRC磁盘的相应更新信息的副本,这些信息包括磁盘更新的内容以及相应的时间戳,当源盘端满足一定条件后(如SIDEFILE中的residule count数达到一定值),相应的控制单元会向SDM系统发起中断请求。当SDM系统接到中断请求时,会读取它所管辖的xRc链接中的每一个SIDEFILE文件并且在SDM系统内分配相应的缓存。SDM将读取的内容存放在系统的缓存内,读取的数据称为“时间组”,所存放的缓存区称为“时间组区”。SDM系统将一定时间范围内的“时间组区”的内容按照时间顺序生成一个“一致性组”文件,记录到遵循先进先出规则的日志中,然后将文件内容写到目标盘中相应的位置上完成同步更新。此外,除了接到出盘端的中断请求,SDM还有其他机制读取主盘端SIDEFILE文件内容,如定时读取等。
XRC的数据流程图如下所示:
9.4 区域分布式并行系统综合体技术
GDPS即区域分布式并行系统综合体技术,是Parallel sysplex并行系统综合体技术和远程拷贝技术的充分结合,以增强应用系统的高可用性,提高系统的灾难恢复能力,GDPS灾备技术主要包括GDPS/PPRC(进一步的方案为(GDPS/PPRC Hyper Swap)和GDPS/XRE两种,GDPS/XRC事实上是跨越两个区域的并行系统综合体,所有的关键数据都将在两个区域被镜像,它提供了管理远程拷贝和存储子系统的能力,可以使得并行系统综合体的操作任务自动化,同时可以从一个单一控制点实现自动的灾难恢复,因此提高了应用系统的可用性.GDPS所实现的灾难恢复程度为Share78所定义的最高层次的灾难恢复程度,它通过对跨异地的主机处理器的管理、存储和网络资源的管理实现了超强的整体lT系统的灾难恢复.它是基干主机SA和NETVIEW开发的,实现了灾难备份与恢复的自动化。其主要特点有:
(l)备份与恢复流程自动化。使用GDPS,可以很方便地实现磁盘数据复制的自动化、数据恢复自动化、灾难备份系统管理自动化、远程系统重启的自动化等功能,保证系统的可恢复性。
(2)保证灾难恢复时间。由于实现了备份和恢复的自动化、流程化,经过充分演练后的灾难恢复流程可以准确保证灾难恢复时间。
(3)易于开发实施。可以利用GDPS提高的各种SCRIPTS,方便地实现各种自动化工作,可开发性强,操作简便。
(4)与XRC有机结合。CDPS可以完成对所有XRC备份和恢复的集中控制,通过GDPS SYSPLEX的K系统,有效地实现灾备系统的集中管理,GDPS/XRC方案具有如下特点:
GDPS/XRC方案中的生产系统可以是单个系统或多个共享磁盘的独立系统,也可以是并行系统综合体。
GDPS/XRC通过单一的自动化方案实现对存储子系统镜像(磁盘和磁带)的动态管理,可以在少量数据丢失的情况下满足客户对于近乎透明的灾备预案的要求。
GDPS/XRC当非计划服务中断(意外)发生时,整个生产环境将切换到备份环境,确保跨卷跨存储子系统的数据一致性,并且在备份环境重起DBMs。
GDPS/XRC独立于应用程序,可以涵盖客户的整个应用环境。
多数灾备方案都可以自动完成生产系统非计划中断时的重新搭建,而GDPS/XRC在此之外还支持生产系统按计划中断时的重新搭建。
总体来说,GPRS/XRC能够满足以下要求:灾备解决方案恢复时间指标(RTO),即生产系统发生意外或计划服务中断到应用和操作恢复所需花费的时间,在1一2小时之间;恢复点指标(RPO),即生产系统发生意外或计划服务中断后的数据丢失量或数据确保一致性的时间点,不超过2分钟;防止生产系统受到地方性和地区性灾难的影响(主系统和备份系统之间的物理距离没有限制);远程拷贝对性能的影响降到最小。
GDPS管理的不仅是物理的资源,同时包括应用环境和数据的完整性.当事故发生时,GDPS优化了两地点切换时系统完成重新启动的能力,因此保证了最短的灾难恢复时间窗口.GDPS使用异步的远程拷贝XRC技术,使得数据的丢失率最小化,而并行系统综合体在系统自动(System Automation)软件的协助下,又保证了系统的自动恢复能力,使得恢复时间减到最短。
十、系统数据移动部件SDM
系统数据移动部件SDM(system data mover)是灾难备份中心的OS/390或Z/OS操作系统的一个软件组成部件,由DFSMS提供其数据管理和拷贝的功能,需要运行在专有的一个逻辑分区上。系统数据移动部件SDM必须同存储主卷与备卷相联系,当数据更新发生在主卷的时候,SDM负责将这些更新拷贝到备卷,SDM将确保数据在备卷上的更新顺序与在主卷上的更新顺序相同。SDM系统通常部署与单独的一台主机,独立于生产环境和灾备恢复环境。
SDM系统上有两类重要的地址空间,ANTAS000和ANTAS00n其中ANTAS000控制功能单元,执行相应的控制命令如连接、断开、挂起等。ANTAS00n是真正的数据拷贝模块,执行真正的数据备份及分配BUFFER等作用,它的数量取决与SDM系统内设置的XRCSession的个数。
SDM系统上有三类重要的数据集,分别为状态数据集、控制数据集和日志数据集。其中状态数据集存放XRC链接的状态以及此链接下所有盘卷对的状态;控制数据集用于决定哪些日志文件中的连续组文件必须写到目标磁盘上;而日志数据集是在灾备恢复时使用,它记录了目标盘更新的断点信息。
十一 举例:建行核心业务系统灾备
建行数据集中工程(DCC)是在统一业务需求和技术标准的基础上,通过对CCBS(核心业务系统)的改造和优化,建立起适合业务发展需要、适应现代管理模式的技术框架的“数据中心、前置(一级分行和二级分行)、前端(网点或各种外部渠道)三级系统架构”的全行核心业务应用系统。实现以帐务数据为主体的全行核心业务数据的集中处理,并形成与数据集中相配套的业务和管理制度,为管理信息系统和决策支持系统提供帐务数据和其他信息,为金融创新和业务拓展奠定基础。系统业务架构图如下:
11.1 容灾备份总体设计
根据DCC核心业务系统架构图可见,DCC核心业务系统主要包括三大块:主机核心处理系统、网关前置系统。以及相应的网络系统。所以相应的灾备设计也分为三部分进行
11.2 主机系统总体设计
为了降低成本提高资源可用率,建行采用的是资源复用的方式搭建容灾备份恢复系统。复用方式为相应的资源平时用做数据中心的测试环境,给各开发中心的版本开发测试提供环境,当灾难发生时停止所用的测试环境,所有资源作为容灾备份恢复系统使用。此外由于建行数据中心分为北京数据中心和上海数据中心,所以容灾备份恢复系统同时为北京数据中心和上海数据中心共用,即当上海数据中心发生灾难时,在灾备中心启动上海数据中心容灾备份恢复系统,当北京数据中心发生灾难时,在灾备中心启动北京数据中心容灾备份恢复系统。生产中心与容灾备份恢复中心的架构图:
如图显示,左半部分为北京洋桥生产中心,右半部分为外高桥容灾备份中心。北京洋桥生产中心当前由4台主机与2台CF组成生产并行系统耦合体,生产数据分布于4台ESS磁盘中(2台5TB,2台10TB)。外高桥容灾备份中心有5台主机,平时其中4台作为测试环境使用1台主机作为SDM系统,通过ATM网络设备与北京洋桥生产中心的生产磁盘相连接,将生产数据实时复制到位于外高桥的4台容灾备份目标磁盘。
11.3 网关系统总体设计
北京数据中心的生产前置系统,包括网关系统、文件服务器和中心前置,各服务器数据集中存储在基于SAN环境的EMC DMX 1000和HDS 9970存储系统内,采用基于EMC的SRO「磁盘镜像技术将数据同步至灾备中心的DMX 800存储系统。在灾备中心配备了备份前置系统,其中网关系统配置与生产系统一致,文件服务器和中心前置的资源配置为生产系统的50%。
11.4 网络总体设计
灾备中心局域网应该和数据中心一样,按分层、分区的架构,以模块化的方式进行构造的。逻辑层次上,建行灾备中心局域网应该和数据中心一样,采用符合业内最佳实践的三层架构,即核心层、分布层和接入层。在具体的物理实现时,部分功能区的分布层和接入层可以合并。
十二、另一个商业银行的例子:
12.1 灾备系统网络架构
12.1.1灾备系统总体物理架构
考虑某商业银行信息系统具有数据集中程度高、分支机构多的特点。因此, 在设计“两地三中心’’灾难备份系统时,北京同城数据备份中心和生产中心距离 在1.5公里以上,并与北京生产中心处于不同的通讯、供电、交通控制区域。采 用同步方式的系统级备份,备份级别达到6级水平,即恢复时间RTO<2小时, 恢复点目标RPO=O。远程灾难备份中心设在上海,采用异步方式的系统级备份, 备份级别达到5级,即恢复时间目标RTO<4小时,恢复点目标RPO<15分钟。 同城和异地灾备中心物理架构保持与生产中心一致。 为确保灾难发生时,同城 和异地灾备中心能迅速接管生产服务,同城和异地灾备中心主机配置应与生产中 心同型号、同配置,并保持同步变更。银行灾备技术方案基于数据存储设备实现, 即在三中心各配置一台相同型号数据存储设备,用于存放业务数据,满足各级网点的高速访问需求。同时,实现生产中心到同城灾备中心的同步数据传输,以及 实现同城灾备中心到异地灾备中心的异步数据传输。“两地三中心"灾备系统 的总体物理架构如图所示。
为实现生产中心到同城灾备中心的同步数据传输,以及实现同城灾备中心到 异地灾备中心的异步数据传输,具体实现采取如下设计:
(1)生产中心与同城灾备中心的网络传输实时业务数据,
即每笔写交易需 要同时写入到2个中心的在线存储设备。因此,该链路对网络带宽和网络稳定性 要求很高,北京生产中心与北京同城灾备中心之间采用两条高速数字线路(裸光纤)联,实现两中心间数据的同步复制,数据达到了零丢失。同时,带宽大小主要取决于商业银行业务量及产生数据大小,以及主机通讯要求设定。根据商业银行 核心业务系统流量测试,两条高速数字线路采用的带宽为2GB。
(2)北京生产中心与上海异地灾备中心之间租用高带宽的数字专线,实现两 中心间数据的异步复制。
同时在同城灾备中心和异地灾备中心之间利用一条高带 宽的数字专线,建立了同城和异地两中心间异步数据复制的备用链路,实现三中心间数据的可靠保护。同城灾备中心到异地灾备中心的网络是灾备系统远程数据 传输的主链路,决定区域性灾难RPO,选择线路稳定,网络延迟较小的网络链路。 带宽确定方法是业务高峰时段,在现有生产存储设备上安装流量分析软件对远程 写数据进行流量跟踪,结合设计的RPO计算扩容。根据商业银行核心业务系统流量测试,同时考虑成本情况,北京生产中心与上海异地灾备中心之间线路采用的 带宽为1GB。
(3)各一级分行到同城灾备中心的连接。
一级分行采取互为热备2条专线 连接到北京生产中心。一级分行到同城灾备中心的网络链路,通过各一级分行到 异地灾备中心的链路中转实现。建成后,各一级分行到同城灾备中心的网络配置稳定性和带宽应不低于各一级分行到生产中心的配置标准。一级分行到同城灾备中心的网络链路,通过各一级分行到异地灾备中心的链路中转实现。
灾备中心网络体系结构
根据灾难备份中心不同的服务功能,异地灾难备份中心网络在功能上分为核心交换区、生产区、管理区、UIS服务区、内联接入区、外联接入区、开发/测试区和Internet接入区等区域。灾难备份中心网络体系结构如图所示。