分布式（一）：CAP&BASE理论

忿忿的泥巴坨 · 2025-3-22 16:46:04

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

1 CAP理论

1.1 简介

CAP也就是Consistency（一致性）、Availability（可用性）、Partition Tolenrance（分区容错性）这三个单词首字母组合。
在理论计算机科学中，CAP定理（CAP theorem）指出对于一个分布式系统来说，当涉及读写操作时，只能同时满足C、A、P三点中的两点：（而且一定是CP大概是AP，没有CA情况）

一致性（C）：全部节点访问同一份最新的数据副本
可用性（A）：非故障的节点在公道的时间内返回公道的相应（不是错误的大概超时的相应）。
分区容错性（P）：分布式系统出现网络分区的时间，仍然能够对外提供服务。

1.什么是网络分区？
  分布式系统中，多个节点之间的网络原来是联通的，但是由于某些故障，比方部门节点出现了问题，节点之间不连通了，整个网络就分成了几块区域，这就叫网络分区。
  2.CA为什么不行？
  假如系统出现分区（不满足P），系统中的某个节点在进行写操作
  CAP定理作为分布式系统设计的焦点理论，其内涵远比常见的"三选二"表述更为深刻。我们有须要从理论演进和工程实践两个维度重新解读：
在分布式系统的设计哲学中，网络分区（Partition tolerance）并非可选项而是必选项。这是由分布式系统的基础特性决定的——任何依赖网络通讯的系统都可能遭遇网络停止、节点故障等分区场景。2012年Eric Brewer在修正论文时特殊夸大，CAP定理的正确解读应当是：当发生网络分区（P）时，系统只能在强一致性（C）和可用性（A）之间二选其一，而非单纯的三者取二。
这种理论演进揭示了两个关键认知：

CA架构的不可行性：假设系统永远不发生分区是工程上的致命谬误。以银行转账系统为例，若坚持CA设计，在网络停止时将导致整个系统瘫痪，这显然违背金融业务的一连性要求。实践中真正的选择存在于CP（如ZooKeeper）和AP（如Cassandra）架构之间。
动态权衡的工程聪明：

CP系统通过捐躯部门可用性确保强一致性，如HBase在分区期间会拒绝写入请求，保证数据版本同一
AP系统则优先保证服务可用性，如Eureka服务注册中央在网络颠簸时答应暂时数据不一致，但确保服务发现机制持续运转
现代系统如Nacos创新性支持模式切换，表现了动态场景下的适应性设计

值得特殊留意的是，CAP定理形貌的是网络分区发生时的极度场景。在超过99%的正常运行时间里，优秀分布式系统（如etcd）通过Raft等共识算法，完全能够同时保证强一致性和高可用性。这种设计哲学启示我们：分布式架构的本质不是静态取舍，而是通过精妙机制（如异步复制、故障转移）来延缓或弱化CAP的约束。
最终架构选择取决于业务本质：证券交易系统必须选择CP来保证订单的确定性，社交媒体的点赞功能则更适合AP架构以保障用户体验。这种选择背后折射的是对数据代价层级的深度理解——有些数据错误是致命的，有些则可以在后续同步中修正。工程师的聪明，就在于在动态变化的网络情况中找到业务需求与技术约束的最优均衡点。

1.2 CAP现实应用案例

CAP现实应用案例：电商系统设计中的动态权衡
1.2.1 场景背景

某头部电商平台在"双11"大促期间面临以下业务需求：

订单系统：必须保证每个商品不会超卖（强一致性）
库存服务：需要承受每秒50万次查询（高可用性）
购物车系统：答应用户在不同装备间暂时看到不一致数据（最终一致性）

1.2.2 技术实现与CAP选择

1. 订单系统（CP架构）

业务需求：避免同一商品被重复售卖，确保支付金额准确
技术方案：接纳分库分表的MySQL集群 + ZooKeeper分布式锁
CAP实践：
- 当某个数据库分片出现网络分区时，ZooKeeper立即触发熔断机制，停止受影响分片的写入操作（捐躯可用性A）
- 未受影响的分片继承通过两阶段提交协议（2PC）保证跨库事务的强一致性（保持一致性C）
- 客户端收到"系统繁忙"提示（HTTP 503），但保证已生成的订单绝对准确
范例问题：2020年某次故障中，华东机房网络停止导致该区域30%用户10分钟无法下单，但避免了错误订单产生

2. 库存服务（AP架构）

业务需求：宁肯显示"库存可能不准"也要保持服务可用
技术方案：Redis集群 + 当地缓存 + 异步校对机制
CAP实践：
- 正常情况：通过Redis的RedLock算法保证库存扣减一致性（CP模式）
- 网络分区时：
  - 前端显示"库存仅供参考"（保存可用性A）
  - 接纳库存预扣机制，在Redis节点间异步同步数据（最终一致性）
  - 设置5%的冗余缓冲库存，通过定时使命修复极度情况下的超卖
效果：2023年双11期间，库存服务在某个AZ（可用区）故障时仍保持99.99%可用性，过后统计超卖率仅0.003%

3. 购物车系统（动态CAP）

业务需求：优先保证用户添加商品体验，答应不同装备间短暂不一致
技术方案：Cassandra数据库 + 客户端当地存储
CAP实践：
- 网络正常时：通过Cassandra的轻量级事务（Paxos协议）实现跨装备同步（CP模式）
- 网络异常时：
  - 用户在本装备看到的购物车数据来自当地存储（保持可用性A）
  - 背景通过辩论自由数据范例（CRDT）自动归并数据变更
  - 装备重连后通过"时间戳+操作日志"解决辩论（最终一致性）
用户体验：用户A在手机端删除商品时，PC端可能短暂显示该商品，但10秒内自动同步消散

1.2.3 关键设计启示

分层CAP策略：同一系统的不同模块可接纳不同CAP策略（如订单CP、库存AP）
降级机制：通过「客户端缓存+异步重试」将强一致性降级为最终一致性（如购物车）
监控驱动：基于网络分区发生概率动态调整策略（如平时用CP，分区时自动降级AP）
业务赔偿：使用对账系统修复CAP选择带来的副作用（如破晓2点修复库存偏差）

1.2.4 现实中的复杂性

网络分区的灰度影响：2022年某次云服务故障导致部门微服务通讯停止，触发订单系统CP模式与库存系统AP模式的不兼容，最终通过「服务网格重试策略+流量染色」解决
混合云的特殊场景：跨境业务中不同国家的法律要求（如欧盟GDPR）可能逼迫某些数据必须保持CP，形成CAP选择的法律约束

这个案例表明，CAP定理不是非黑即白的选择题，而是需要结合业务场景、故障概率、用户体验等多维度因素进行动态权衡的工程艺术。优秀的分布式系统设计，每每是在不同层级、不同时段对CAP进行风雅化组合应用的效果。
1.3 总结

        在分布式系统设计与开发过程中，设计者不应将视野范围在CAP理论的基础探讨上，同样需要重视系统的扩展性、高可用性等关键特性。
        根据CAP理论的焦点约束，当系统遭遇网络分区（Partition Tolerance）时，必须在数据一致性（Consistency）和可用性（Availability）之间做出权衡选择，形成CP或AP两种架构模式。值得夸大的是，该理论的适用条件是系统确实处于网络分区状态。当系统处于网络正常运行的无分区（Non-Partitioned）状态时，分区容忍性（P）的约束条件将自动排除，此时系统理论上能够兼顾数据一致性（C）和可用性（A）的双重保障。
        这种动态特性要求架构师采取分层设计策略：在分区场景下需根据业务特性决策CP/AP的优先级（如金融交易等强一致性场景应优先保障CP，而在互联网服务等高可用需求场景则更适合选择AP）；在无分区常态下则需要通过副本同步、事务协调等机制持续优化CA指标，为系统构建灵活弹性的架构基础。

2 BASE理论

2.1 简介

        BASE 是 Basically Available（基本可用）、Soft-state（软状态） 和 Eventually Consistent（最终一致性） 三个短语的缩写。BASE 理论是对 CAP 中一致性 C 和可用性 A 权衡的效果，其来源于对大规模互联网系统分布式实践的总结，是基于 CAP 定理逐步演化而来的，它大大降低了我们对系统的要求。
2.2 BASE理论的焦点思想

纵然无法做到强一致性，但每个应用都可以根据自身业务特点，接纳得当的方式来时系统到达最终一致性。
也就是捐躯数据的强一致性来满足系统的高可用性，系统中的一部门数据不可用大概不一致时，仍需要保持系统整体“重要可用”。
   BASE理论本质上是对CAP的延伸和补充，更具体的说，是对CAP中AP方案的一个补充。
假如系统没有发生“分区”的话，节点间的网络连接通讯正常的话，也就不存在P了。这个时间，我们就可以同时保证C和A了。因此，假如系统发生“分区”，我们要考虑选择AP还是CP，假如没有，我们要思考怎样保证CA。
  因此，AP方案只是在系统发生分区的时间放弃一致性，而不是永远放弃一致性。在分区故障规复后，系统应该到达最终一致性。这一点就是BASE理论延伸的地方。
2.2 基本可用

基本可用是指分布式系统在出现不可预知故障的时间，答应丧失部门可用性。但是，这绝不等价于系统不可用。
什么叫答应丧失部门可用性？

相应时间上的丧失：比方，正常情况下，处理用户请求需要0.5s返回效果，但是由于系统出现故障，处理用户请求时间变为3s。
系统功能上的缺失：比方，在正常情况下，用户可以使用系统全部功能，但是系统访问量忽然激增，系统的部门非焦点功能无法使用

2.3 软状态

软状态指答应系统中的数据存在中间状态（CAP理论中的数据不一致），并认为该中间状态的存在不会影响系统的整体可用性，即答应系统在不同节点的数据副本之间进行数据同步的过程中存在延时
2.4 最终一致性

最终一致性夸大的是系统中全部的副本，在颠末一段时间的同步后，最终能够到达一个一致的状态。因此最终一致性的本质是需要系统保证最终数据能够到达一致，而不需要及时保证系统数据的强一致性。
分布式一致性的 3 种级别：

强一致性：系统写入了什么，读出来的就是什么。
弱一致性：不一定可以读取到最新写入的值，也不保证多少时间之后读取到的数据是最新的，只是会尽量保证某个时刻到达数据一致的状态。
最终一致性：弱一致性的升级版，系统会保证在一定时间内到达数据一致的状态。

  业界比力推崇是最终一致性级别，但是某些对数据一致要求非常严格的场景好比银行转账还是要保证强一致性。
  那最终实现一致性具体方案？

读时修复 : 在读取数据时，检测数据的不一致，进行修复。好比 Cassandra 的 Read Repair 实现，具体来说，在向 Cassandra 系统查询数据的时间，假如检测到不同节点的副本数据不一致，系统就自动修复数据。
写时修复 : 在写入数据，检测数据的不一致时，进行修复。好比 Cassandra 的 Hinted Handoff 实现。具体来说，Cassandra 集群的节点之间远程写数据的时间，假如写失败就将数据缓存下来，然后定时重传，修复数据的不一致性。
异步修复 : 这个是最常用的方式，通过定时对账检测副本数据的一致性，并修复。

比力推荐 写时修复，这种方式对性能消耗比力低。

3 总结

ACID 是数据库事务完整性的理论，CAP 是分布式系统设计理论，BASE 是 CAP 理论中 AP 方案的延伸。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

分布式（一）：CAP&BASE理论

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块