关键容灾技能比较

打印 上一主题 下一主题

主题 527|帖子 527|积分 1581

>【摘要】每一种容灾技能方案,可以从实现的技能复杂度、须要投入的本钱、须要承担的风险、技能的先进性、技能的成熟度等几个方面来综合评估,寻求得当企业的最佳技能组合方案。本文对几类关键容灾技能进行了比较分析。(文中涉及相干技能产物最新参数请以官网最新发布为准)【作者】赵海
1. 容灾计划规划的步骤

容灾对于企业的 IT创建来讲是非常重要的事情,如何进行企业的容灾架构计划规划是整个容灾创建的核心关键事件,因此须要一套方法论或者科学的步骤来参考。概括起来应该遵照以下逻辑进行:

根据图中所示的逻辑思路,我们须要依次解答以下几个问题:
① 为什么要搞容灾创建?
这个问题非常重要,因为企业搞容灾创建的背景可能会因为行业背景、监管标准、业务特点等情况不同而完全不一样。例如多数金融行业搞容灾创建是因为监管的行业要求,有的企业则是因为曾经面对过数据中央劫难教训或者看到别人的教训而主动搞容灾创建。不同的创建目的会导致追求的目的不尽相同。
② 创建成什么样的容灾架构体系,用什么样的标准去衡量?
在《企业容灾选型指南-1:什么是企业容灾》文章当中详细阐述过:RTO&RPO是搞容灾创建的最核心目的,统统容灾创建目的都须要回到RTO和RPO的评估上来。
RTO:企业可容许服务中断的时间长度,简言之业务可以恢复的最快时间。
RPO:企业可容许数据丢失的数量级,简言之数据可以恢复到最新的时刻点。
企业因搞容灾的初衷不同,那么对RTO和RPO的目的也会有严格和宽松之分,所谓严格的RTO&RPO指标就是政府或行业监管的最低标准,不同规模性质的企业有不同的最低标准要求。所谓宽松就是企业为了平衡投入本钱和容灾架构带来的收益,可以将RTO&RPO锁定在一定范围内。
③ 创建的容灾架构应该是什么级别(国家标准&国际标准)?
在《企业容灾选型指南-1:什么是企业容灾》文章当中详细阐述过:银监局和中国人民银行对商业银行业最严格的要求标准是5级容灾标准,RPO<=15分钟,RTO<=30分钟。而根据国际标准share78,六级容灾标准是RPO=0,RTO=分钟级;七级容灾标准是RPO=0,RTO近似为0。
企业可以根据这些标准界定自己应该实现的最低标准,比如说5级或者6级标准。
④ 选择什么样的容灾架构技能体系,如何评估各种容灾中的关键技能方案?
以同城双中央容灾为例,企业须要评估网络层、应用层、数据库层、存储层等纵向各个功能层的详细技能方案,同时须要考虑到纵向和横向的融合和扩展。评估的时候,我们须要选择好评估的维度以及关键风险的把控,后续章节我们会详细介绍评估这些关键技能方案的方法和思路。
2. 评价容灾技能的维度

每一种容灾技能方案,从实现的技能复杂度、须要投入的本钱、须要承担的风险、技能的先进性、技能的成熟度等几个方面来综合评估,寻求得当企业的最佳技能组合方案 。
① 技能复杂度: 对于容灾技能方案的技能复杂度,总的原则是同目的可达的情况下,架构越简单越好。
大的方面分析来看,不但仅须要考虑创建的复杂度还须要考虑运维的复杂度;不但仅要考虑方案本身的复杂度还须要考虑方案须要依靠的情况的复杂度;不但仅须要考虑横向复杂度还要考虑纵向的复杂度。
② 投入本钱: 对于企业来讲,投入本钱是非常总要的一项因素。总的原则是同目的可达的情况下,本钱越少越好。大的方面分析来看,投入本钱不但包括容灾方案本身的设备本钱还须要考虑软件本钱;不但须要考虑创建本钱还须要考虑运维本钱;不但须要考虑资源本钱还须要考虑人力本钱;不但须要考虑一次性本钱还须要考虑持续投入本钱。
③ 承担风险: 所谓风险,最主要的就是极端情况下的RTO和RPO风险。总的原则是可以在宽松目的范围内适度降低,但是不能因此而承担劫难性的风险概率。大的方面分析来看,承担风险主要包括极端情况下的数据丢失风险、地区性业务中断扩展的风险。
④ 技能先进性: 所谓技能先行性,一方面要看技能本身与主流发展的方向是否匹配,别的一方面要看技能本身在性能、高可用、扩展性、兼容性等方面的能力。总的原则是在目的可达的情况下,选用先进的技能体系。
⑤ 技能成熟性: 所谓技能成熟性,不但须要从技能体系本身的发展历史来看它的健壮性和稳固性,还须要从技能方案应用的案例情况以及市场的反馈情况来看技能的成熟性。
固然以上五个方面的评估维度,在详细分析技能方案的时候,可以根据方案本身的特点创建起一套评估指标体系,根据不同维度指标的得分情况来详细评估。
3. 关键容灾技能比较分析

3.1 DB:HA vs AA vs AS

数据库层的集群模式是容灾计划当中必不可少的部门,这部门的服务模式一般会有三种范例:以操作系统级别的HA与数据库服务相联合的模式;通过数据库层实现的AA服务模式;通过数据库层容灾技能实现的AS服务模式。下图是我们对这三种模式的抽象描述:

服务模式 :只有一个浮动VIP,以主数据中央为基础提供对外数据访问接口服务。
集群模式 :主备模式,主节点提供服务,备节点故障时刻接管服务。
存储模式 :主备节点均可以激活存储卷,正常时刻只有激活节点可以挂载存储卷并具备读写权限。
情况依靠 :跨数据中央L2网络;共享存储卷(可以是操作系统或者是存储网关实现的虚拟共享卷);第三方仲裁站点(与主备数据中央有相互独立的L3网络)。

服务模式 :SCAN IP+2个VIP,主备中央以负载均衡的模式对外提供服务。
集群模式 :主主模式,节点可以扩展,主备节点同时提供服务。
存储模式 :主备节点共享存储卷,通过节点间的缓存和谐机制以及锁机制实现并发控制。
情况依靠 :跨数据中央L2网络;共享存储卷(可以是操作系统或者是存储网关实现的虚拟共享卷);第三方仲裁站点(与主备数据中央有相互独立的L3网络)。

服务模式 :主库VIP+备库VIP,而且不能是同网段地点;主库对外提供服务。
集群模式 :主备模式,但是主库的A可以扩展为AA集群,主库对外服务,备库故障时切换为主库。
存储模式 :主备节点各自拥有自己的存储卷,从主库到备库实现数据复制。
情况依靠 :双中央网络三层可达即可。
我们从技能复杂度、投入本钱、承担风险、技能先进性、技能成熟性五个维度来对比分析这几种技能方案的优劣,篇幅的原因,我们这里只做大方面的定性分析,不做体系化的指标模子分析。
技能复杂度上 ,HA和AA模式均依靠于跨数据中央L2网络,AS模式仅须要跨数据中央L3可达即可,相对来讲AS模式的技能复杂度会更优。
投入本钱上 ,创建阶段HA和AA模式会因为跨数据中央L2网络情况的创建而投入更多的设备、软件以及线路本钱,AS模式多数须要人为干预切换,因此后期须要专门的高水平团队管理容灾切换。
承担风险上 ,AA模式两个节点之间的Cache/Lock管理非常重要,一旦私网出现不稳固问题,影响极其重大,小则性能出现问题,大则数据重大损坏集群瓦解;HA模式正常情况下是单节点控制读写,因此不会产生因为读写竞争出现的重大性能或数据损坏问题;AS模式双节点之间只是日志单向复制,风险相对较其他两种模式小很多。
技能先进性上 ,AA模式RTO&RPO理论上都是零,可以达到7级容灾目的;HA模式(RPO=0,RTO约为0-30分钟级别),可以达到6级容灾目的;AS模式(RPO约为0,RTO约为0-30分钟级别),也可以达到6级容灾目的。架构扩展和灵活性方面,AA可以扩展到多节点集群,AS模式可以扩展多一对多以及级联架构,而HA的扩展性和灵活性都非常差;性能方面,AA模式可以横向扩展,AS不但可以横向扩展,而且可以读写分流;HA模式只能增加单节点处置惩罚能力。
技能成熟性上 ,HA模式虽然历史较长,但是并不是一个成熟的数据库高可用技能,它受限于操作系统方面的处置惩罚机制。而AA模式就是基于数据库集群服务而诞生的成熟高可用技能,但是官方并没有把它作为一种成熟的容灾技能宣传(例如Oracle将Extended RAC作为过渡的容灾架构,而不是官方正式认可的容灾技能方案),而AS模式是官方认可的成熟容灾技能。
3.2 Replication: Mirror vs Log Replication

关于数据复制技能,我们在《企业容灾选型指南- 3 :数据复制技能》当中介绍了常见的几种技能方案,但是总结来看,其实无非两种模式,一种是基于镜像的双写复制技能,一种是基于端到端的拷贝复制技能(日志拷贝应用 &存储Block复制,仅考虑日志拷贝应用模式 )。

对于数据复制的这两种模式的对比分析,我们主要从风险和技能复杂度、先进性三个方面来看:
从承担风险上来看 ,基于镜像实现的数据复制模式,其复制原理主要是基于操作系统存储卷或者存储的Block来进行双写,跟数据库层的事务操作没有任何关联性,无法识别Block里面包罗的业务数据。极端情况,假如主数据中央因为数据库层配置文件或元数据之类的数据损坏而导致的劫难,这个时候备数据中央也会发生同样的问题。而基于重做日志应用的数据复制完全是数据库应用层的事务操作实现的数据复制,它的复制不会掺杂数据库配置层、系统层等外界的多余的写操作,因此不会存在这种逻辑Block损坏的变乱概率。别的一方面,这种模式的镜像是不平衡的,每一次写过程都会受到IO延时不平衡的影响,性能极大受到外界不稳固网络的影响,而且放在AA数据库集群情况会无限放大。
从技能复杂度来看 ,假如是本地镜像,那么技能复杂度并不高,但是假如是跨数据中央的镜像技能,无论是基于操作系统层还是基于存储层,都是须要基于远距离SAN情况做跨中央的镜像,每一次IO都须要经历远距离写的过程。因此它的技能复杂度一定高于后者。
从技能先进性来看 ,基于镜像的数据复制技能,那么RTO&RPO理论上都是零。基于日志应用实现的复制技能虽然也可以实现同步复制,但是现实应用当中绝大多数接纳高可用或者性能模式,网络传输质量好的情况下,RPO只能接近于零,出现故障的时候须要切换时间,RTO指标也不如前者。
3.3 Storage:HA vs AA

存储网关集群技能实现的数据复制,也是基于镜像实现的数据复制,总结市场上的一些产物方案,总结来看主要分为两种模式,一种是以VPLEX为代表的双活网关模式,别的一种是以SVC为代表的HA网关模式(厂商的宣传永久是双活,但是我们须要从单个存储卷的维度去看它是不是双活,别的即使双活做到卷和IO的粒度也不一定是功德,须要辩证去看):


如图所示,上图是基于HA模式和AA模式的存储网关实现数据复制的基本技能轮廓,主要区别在于两个网关节点的工作模式。HA两个节点针对同一个卷的工作模式是主备,单边故障的时候可以切换到备节点工作,有些产物可以做到同步缓存,甚至使用存储操作系统虚拟化技能做到虚拟机漂移并主动接管存储卷读写,有些则须要较长的切换过程。AA两个节点针对同一个卷的工作模式是主主,通过全局缓存和分布式锁机制控制并发。底层都是双写,只是由一个点写下去还是由两个点协商写下去的区别。
对比这两种技能方案,应该说从技能复杂度、本钱投入都没有太明显的区别,所以我们偏重还是要从风险和技能先进性及成熟度上来做辩证性比较。
承担风险上 ,存储网关的AA架构雷同于Oracle RAC架构,两节点之间的通讯数据量不但量非常大(维持全局Block缓存和分布式锁),而且非常重要,一旦出现通讯不稳固问题,两节点无法协商完成并发写入控制,严峻的时候可能出现更严峻的问题。假如与数据库层的RAC集群配合使用,那么风险无疑是落井下石,纵向两套集群(DB、Storage)都是同类机制,都严峻依靠双数据中央的通讯质量,不确定性就太高了。HA架构相对于AA来讲,最大的优点在于双写是由单边发出的,无需和谐控制,最少不会出现因和谐不稳固出现的性能及数据安全风险。这两种模式与数据库集群配合的时候,都会面对同样的风险,那就是仲裁辩说的问题,还须要审慎考虑。
技能先进性上 ,站在理论的高度,以为可以实现存储卷、IO级别的双活就是技能上的制高点,实现以应用为最小粒度的双活就是伪双活;其实站在业务的高度,我们以为只要两套系统都能运作,都能承载应用就可以了,企业追求的目的是业务连续性,不是IO连续性。这个意义上讲,二者没有区分出太大的优劣。
技能稳固性上 ,二者都是基于操作系统及数据库高可用技能实现的存储容灾技能,技能源头都有较长历史传承。所以大家还要从市场的应用状况来观察。
原题:企业容灾选型指南-6:容灾架构评估
如有任何问题,可点击文末阅读原文,到社区原文下批评交流以为本文有用,请转发或点击“在看”,让更多偕行看到


资料/文章保举:


欢迎关注社区 "灾备" 技能主题 ,将会不绝更新优质资料、文章,您也可从前往提出疑难问题,与偕行探讨交流。地点:https://www.talkwithtrend.com/Topic/3457
下载 twt 社区客户端 APP



长按识别二维码即可下载
或到应用商店搜刮“twt”


长按二维码关注公众号
*本公众号所发布内容仅代表作者观点,不代表社区态度;封面图片由版权数据库授权使用


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

用户国营

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表