作者:SmartX 产物部 钟锦锌
捏造机高可用(High Availability,简称 HA)是捏造化/超融合平台最常用、关键的功能之一,可在服务器发生故障时通过重修业务捏造机以降低故障对业务带来的影响。因此,为了充实保障业务的连续性和稳定性,捏造机 HA 功能需要覆盖大范围的故障场景,能够对具体故障进行正确辨认,并根据故障场景采取适合的切换机制。
基于计算与存储融合摆设的架构,SmartX 超融合(搭配原生捏造化 ELF)不光可通过多副本计谋和机架感知等技术特性提拔捏造机 HA 有效性,还可通过优化的捏造机 HA 功能为多种服务器和捏造机故障场景提供更为过细的捏造机重修服务。以下,我们将联合超融合架构对高可用的构建要求,深入解读 SmartX 超融合捏造机 HA 机制计划与具体功能。
欲了解更多 SmartX 超融合技术与特性,接待下载阅读系列电子书《超融合技术原理与特性解析(一)捏造化与存储》、《SmartX 超融合技术原理与特性解析合集(二)管理与运维》。
1 超融合架构下的捏造机高可用实现需求
超融合架构下,捏造机 HA 功能的作用与捏造化平台基本一致:当服务器发生故障时,受影响的捏造机将在集群中其他康健主机上主动重启并规复运行。HA 将降低停机故障影响,并收缩服务停止时长,同时不需要专门的备用硬件和安装附加软件。关键步骤包括:
正确感知故障,触发 HA。
不依赖捏造机的操纵系统和软件,并在确保捏造机的一致性前提下实现主机的转移。
合理选择目标主机,重启捏造机,完成 HA 流程。
1.1 核心差异是存储的高可用
在捏造机 HA 功能的计划和实现上,超融合与捏造化平台存在一些差异。在捏造化场景中,实现故障场景下捏造机转移到其他主机规复运行的基础是:捏造机数据存放在共享存储设备,且这些主性能访问该存储。因此,高可用功能是高度依赖共享存储(FC-SAN 、IP-SAN 存储等外部存储设备)的。然而在传统架构中,捏造化主机与共享存储是相互独立的,存储的可用性是由存储设备负责包管的,捏造化平台的高可用计划无需思量存储的可用性。
而超融合架构的特性是计算捏造化和软件定义存储在同一主机上融合摆设,因此,超融合架构下高可用计划的复杂性在于,既要确保计算捏造化层面的可用性,还要确保存储的可用性,这是两者在高可用实现中的核心差异。 1.2 服务器节点故障对超融合集群的影响
1.2.1 对捏造化计算的影响
当服务器节点发生故障,最直接的影响就是捏造机无法正常运作。假如遭遇节点宕机,捏造机天然也会随之宕机;假如遭遇的是局部故障,捏造机虽然不会直接宕机,但有大概无法毗连网络大概无法正常 I/O 读写。无论是以上哪种故障,都很有大概影响业务的正常运行,需要通过 HA 功能介入,尽快规复业务的正常服务。
1.2.2 对存储的影响
SmartX 超融合软件 SMTX OS 使用多副本技术实现数据冗余,所有写入的数据将主动复制为多个副本(2 副本大概 3 副本可选),并确保不同的数据副本分别写入不同的服务器。当(一台或多台)服务器节点发生故障,软件定义存储的其中一个(或多个)副本就会离线。
图 1
2 SmartX 超融合捏造机 HA 实用范围
2.1 可覆盖的故障场景
真实情况中面对的故障场景是复杂、多样的,高可用起首需要正确地辨认故障场景。否则,错误地、频繁地触发 HA 将会为业务连续性带来负面影响。基于以上故障影响分析,SmartX 超融合捏造机 HA 功能在计划时尽大概思量更多故障场景,现在可覆盖以下 4 种常见故障场景,并可根据故障场景的特点触发符合的 HA 切换动作。
2.1.1 服务器节点宕机/不响应
如遭遇机房停电,集群节点团体下线,这种场景下系统是没有条件触发 HA 的;当机房重新规复电力,HA 功能会被重新触发,由于该场景下并不存在硬件故障,因此系统会优先在原节点重新启动捏造机,规复捏造机正常运行。 2.2 捏造机高可用开关
另外,针对特定的捏造机,用户不希望主动触发 HA。对于这一需求,SmartX 超融合计划了捏造机 HA 开关,每台捏造机可以根据需要选择开启或禁用 HA 功能。对于不受 HA 保护的捏造机,当节点发生故障时,捏造机不会主动重启,会保持关闭状态,用户可以选择手动启动捏造机。
3 SmartX 超融合捏造机 HA 团体机制计划
3.1 捏造机高可用触发机制
集群默认启动 HA 功能,主动选举出其中一个节点作为 HA Leader,集群其他节点均为 HA Follower。
集群中每个节点会有守护历程(VM Monitor)。
HA Follower 通过 VM Monitor 定期(每 10s 一次)写入心跳信息。
HA Leader 节点通过 VM Monitor 定期(每 10s 一次)读取心跳信息,并负责判断其他节点的状态。
高可用触发时间线:
*注:时间点以非 HA leader 节点故障为例。 3.2 捏造机重修机制
当触发 HA 之后,理论上系统可以在集群中康健主机上随机选择位置重新启动捏造机。但思量到集群中并不是所有主机的硬件条件都是完全一致的,如业务对主机的硬件情况比力敏感时,切换主机大概会导致业务无法正常提供服务。因此,SmartX 提供了更过细的捏造机重修机制。
3.2.1 捏造机放置组功能
创建捏造机放置组的实质是通过对捏造机的放置和迁徙设置约束和创建规则,以便捏造性能够在得当的节点上运行。创建放置组规则后,在捏造开机、迁徙及触发 HA 后的重修过程中,将遵照放置组规则为捏造机选择符合的主机。实用场景包括: (1)业务高可用
多台捏造机同属于单一业务,相互之间应用级别的故障转移时,这些捏造机不应该放置到同一主机,否则单一主机故障大概影响业务的连续性。在这种情况下,可以通过设置放置组计谋,要求触发 HA 时将相关捏造机安排在不同主机上重修。(如图 2 所示)
图 2 (2)业务对主机 CPU 敏感
假如捏造机的 vCPU 是使用直通模式,触发 HA 后假如在设置其他不同型号 CPU 的主机上重修,那么捏造机内部的 vCPU 型号也会发生变化。有一部分应用软件会绑定呆板码,其中包括 CPU 信息,大概会导致许可失效。
假如捏造机对 CPU 性能有特定需求,如特定的 CPU 主频大概 CPU 系列,在其他主机上重修有大概导致业务性能降落。
针对以上场景,可以通过设置放置组计谋,确保捏造机在触发 HA 后会在指定(拥有特定 CPU 资源)的主机上重修。(如图 3 所示)
图 3 (3)业务对网络有特殊要求
捏造机需要访问特殊的网络,集群中只有某部分主机才拥有该网络或网口,HA 切换主机后有大概导致网络无法正常通讯。这种情况同样可以通过设置放置组计谋,确保捏造机在触发 HA 后会在指定(拥有特定网络资源)的主机上重修。
3.2.2 HA 优先级选项
当 HA 触发时,故障节点上所有开启 HA 的捏造机将一起进入重修队列,其顺序无法包管承载紧张业务的捏造机得到优先规复。此外,遭遇节点故障会导致集群总资源淘汰(包括 CPU、内存、存储资源等),假如集群剩余的资源比力紧张,无法承载所有需要重修的捏造机,大概导致紧张捏造机无法重修。
针对这个场景,SmartX 超融合提供了捏造机 HA 优先级选项,可以为捏造机设置高、中、低 3 种优先级别,当触发 HA 后,系统可依照优先级顺序重修捏造机,确保紧张捏造机优先重修完成。(如图 4 所示)
图 4 3.3 机架感知功能:提拔捏造机 HA 有效性
前面提到 SMTX OS 在不同服务器拥有多个数据副本,可容忍服务器硬件故障,并通过存活副本主动完成数据规复。但假如这些服务器都放在同一个机柜,那么只要机柜的 PDU 共享电源发生故障,多台主机会将同时离线,那么多副本保护机制就大概失效。机架感知技术,就是通过感知服务器的存放拓扑(放置在不同机柜),数据的多个副本主动跟随放置在位于不同机柜的多台服务器当中。即使遭遇某一机柜电源故障,系统也可以从其他机柜上的服务器找到对应的数据副本,并触发数据规复流程。
团体而言,在故障发生初期,SMTX OS 超融合软件可正确辨认故障场景类型,并根据故障类型实行对应高可用动作,尽大概淘汰 HA 切换影响;在触发 HA 切换后,系统会根据预设规则精准地将捏造机安排到符合的主机上进行重修,并可根据业务紧张性安排重修顺序。搭配机架感知功能,SmartX 超融合捏造机 HA 机制可为业务捏造机提供多场景、有效、正确的连续性保障。
欲了解更多 SmartX 超融合技术与特性,接待下载阅读系列电子书《超融合技术原理与特性解析(一)捏造化与存储》、《SmartX 超融合技术原理与特性解析合集(二)管理与运维》。