消息中心件:深入理解 Kafka的消息顺序和一致性、可靠性和高可用性 第1版 ...

张裕  金牌会员 | 2024-10-15 14:56:45 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 577|帖子 577|积分 1731

消息中心件:深入理解 Kafka的消息顺序和一致性、可靠性和高可用性 第1版

   Kafka 是一种分布式消息中心件,它能够处理大规模的及时数据流,是现代分布式系统中的关键组件。作为高吞吐量、低延长、强扩展性和高容错的消息系统,Kafka在各种场景中都体现出了卓越的性能。本文将深入探讨 Kafka 的适用场景、消息顺序与一致性包管、高可用性机制等关键知识点。
  
  

一、Kafka 的根本概念

Kafka(Apache Kafka)是一个由 LinkedIn 开发的分布式流平台,后续开源给 Apache 基金会。它的焦点组件包括生产者(Producer)、消费者(Consumer)、主题(Topic)、分区(Partition)和 Broker 等。
1.1 Kafka 的焦点组件

组件阐明生产者负责向 Kafka 发送消息的客户端应用程序。消费者从 Kafka 中读取消息的客户端应用程序。主题Kafka 中用于分类消息的逻辑集合,相称于消息的分类标签。分区每个主题可以被分为多个分区,分区是消息的存储单元,消息在分区内是有序的,但分区之间无序。BrokerKafka 集群中的一个节点,负责消息的存储和传递。 1.2 Kafka 的工作原理

Kafka 通太过区和副本机制实现高吞吐量和高可用性。生产者将消息发送到指定的主题,消息会被分配到某个分区中。每个分区中的消息以日记形式存储,具有严格的顺序。消费者从分区中拉取消息进行处理。Kafka 通过副本机制包管数据的持久性和可用性。
二、适用的业务场景

2.1 日记收集系统

Kafka 常用于日记数据的收集和处理。在大型分布式系统中,各个组件产生的日记信息可以通过 Kafka 进行集中收集,同一存储,便于分析和监控。
示例:在 Web 应用中,用户的访问日记、错误日记等可以通过 Kafka 发送到一个集中式的数据处理系统中,进行及时监控和报警。
2.2 及时流数据处理

Kafka 是及时流处理的焦点组件之一。它可以将流式数据(如点击流、交易数据、传感器数据)及时传递给下游的流处理框架(如 Apache Flink、Apache Storm),实现及时分析和决议。
示例:在一个电子商务平台上,可以通过 Kafka 及时处理用户的点击流数据,动态调解页面推荐内容,提高用户体验和贩卖转化率。
2.3 变乱跟踪和监控

Kafka 适用于复杂系统中的变乱跟踪,比方跟踪用户举动、监控应用性能等。它能够快速将变乱从生成端传递随处理端,并支持大规模的并发访问。
示例:在金融系统中,Kafka 可以及时跟踪交易变乱、账户变动等,实现及时风险控制和非常检测。
2.4 消息队列

Kafka 可以作为高性能的消息队列,替代传统的消息中心件(如 RabbitMQ、ActiveMQ),用于系统间的异步通信。Kafka 的高吞吐量使其能够处理大规模的消息数据。
示例:在微服务架构中,服务之间通过 Kafka 进行异步通信,以解耦各个服务,提升系统的可扩展性和容错能力。
三、怎样包管消息的顺序和一致性

Kafka 在分布式环境中通太过区机制、消息序列化、确认机制等本领,确保消息的顺序和一致性。生产者、Broker(服务端)和消费者各自负担不同的职责,共同保障消息的正确性温顺序性。以下是 Kafka 在这方面的焦点机制及具体表明。
3.1 消息的顺序包管

Kafka 通太过区机制(Partition)在服务端包管消息在分区内的顺序性。每个分区是一个有序的日记文件,Kafka 的设计确保了分区内的消息按照写入顺序存储,而消费者也按照相同顺序读取。
留意:假如宏观来说,则必要对每条消息设置一个id来记录顺序,那么此时就必要分布式id,而分布式id算法的生成绩包含了雪花算法等其他算法。后续版本更新后会具体先容。
3.1.1 顺序包管的原理



  • 生产者端(客户端):生产者根据分区键(Partition Key)决定消息发送到哪个分区,确保具有相同键的消息被路由到同一个分区,从而保持消息顺序。
  • 服务端(Broker):分区在 Kafka 的服务端(Broker)中存在,消息在分区内按顺序存储。每个分区由一个 Leader 副本负责写入操纵。
  • 消费者端(客户端):消费者单线程读取分区中的消息,包管读取顺序与写入顺序一致。
3.1.2 怎样实现顺序包管



  • 分区设计:Kafka 通太过区包管每个分区内的消息是有序的,不同分区之间的消息顺序不包管。通过相同的分区键路由,Kafka 可以包管特定键的消息按顺序发送和消费。
  • 单线程消费:为了确保消息顺序,Kafka 设计为一个分区只能被一个消费者实例读取,这样可以避免多线程消费导致的消息乱序。
示例代码:生产者向指定分区发送消息,确保消息的顺序性。
  1. import org.apache.kafka.clients.producer.KafkaProducer;  // 导入 Kafka 生产者类
  2. import org.apache.kafka.clients.producer.ProducerRecord;  // 导入生产者记录类
  3. import java.util.Properties;  // 导入 Properties 类,用于配置 Kafka 生产者
  4. public class OrderedProducer {
  5.     public static void main(String[] args) {
  6.         Properties props = new Properties();
  7.         props.put("bootstrap.servers", "localhost:9092");  // 指定 Kafka Broker 地址
  8.         props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");  // 设置键序列化器
  9.         props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");  // 设置值序列化器
  10.         KafkaProducer<String, String> producer = new KafkaProducer<>(props);  // 创建 Kafka 生产者
  11.         for (int i = 0; i < 10; i++) {
  12.             // 创建生产者记录,带有相同的键 "key",确保消息发送到同一个分区
  13.             ProducerRecord<String, String> record = new ProducerRecord<>("ordered-topic", "key", "message-" + i);
  14.             producer.send(record);  // 发送消息
  15.         }
  16.         producer.close();  // 关闭生产者
  17.     }
  18. }
复制代码
表明:在这个示例中,生产者向ordered-topic发送消息,全部带有相同键的消息会进入同一个分区,Kafka 包管这些消息在该分区内按顺序存储和消费。
3.2 消息的一致性包管

Kafka 在服务端通太过区副本机制(Replica)和生产者端简直认机制(ACKs)来确保消息的一致性。每个分区有一个 Leader 副本和多个 Follower 副本,确保当主副本失效时,仍能读取到一致的数据。
3.2.1 副本机制



  • Leader 副本和 Follower 副本:分区的 Leader 副本负责处理全部的读写哀求,而 Follower 副本负责从 Leader 副本同步数据,确保数据的一致性。
  • 副本推举:当 Leader 副本发生故障时,Kafka 会在同步的 Follower 副本中自动推举一个新的 Leader,以保持服务的高可用性和一致性。
    留意:这里的一致性又弱一致和强一致之分,必要采用不同的算法。后续会给出讲解。
3.2.2 确认机制(ACKs)

确认机制用于控制生产者和 Broker 之间的数据确认过程。ACKs 的设置决定了消息被视为成功写入所需简直认级别,它确保消息在 Broker(服务端)中得到了正确的处理。
确认机制的配置选项:


  • ACKs=0:生产者发送消息后不等待任何确认,这种模式下,消息大概会丢失,但性能最佳。
  • ACKs=1:生产者等待 Leader 副本简直认,假如 Leader 收到消息则认为发送成功,具有较好的性能和可靠性均衡。
  • ACKs=all:生产者等待全部同步 Follower 副本简直认,提供最高的一致性保障,确保不会因单个 Broker 故障丢失数据。
     表明:

  • 生产者发送消息:生产者将消息发送给 Leader 副本。
  • Leader 副本同步消息:Leader 副本将消息同步到 Follower 副本。
  • Follower 副本确认:Follower 副本在同步成功后返回确认给 Leader 副本。
  • Leader 副本返回确认给生产者:根据生产者的 ACKs 配置,Leader 副本决定何时向生产者返回确认。

    • 假如 ACKs=0:生产者不会等待任何确认,直接认为消息发送成功。
    • 假如 ACKs=1:Leader 副本确认后立即返回给生产者,不思量 Follower 副本的状态。
    • 假如 ACKs=all:只有在全部同步 Follower 副本都确认后,Leader 副本才返回确认给生产者。

这幅信令图准确反映了生产者和 Kafka 集群中各个副本之间的交互过程,重点在于不同的 ACKs 配置怎样影响消息确认的时机和流程。
3.2.3 示例代码:设置确认机制

示例代码:设置生产者的 ACKs 参数以确保消息一致性。
  1. Properties props = new Properties();
  2. props.put("bootstrap.servers", "localhost:9092");  // 指定 Kafka Broker 地址
  3. props.put("acks", "all");  // 设置消息确认级别为所有副本确认,确保最高一致性
  4. props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");  // 键序列化器
  5. props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");  // 值序列化器
  6. KafkaProducer<String, String> producer = new KafkaProducer<>(props);  // 创建 Kafka 生产者
  7. // 省略发送消息逻辑
  8. producer.close();  // 关闭生产者
复制代码
表明:通过设置 acks=all,生产者确保消息在全部副本都成功写入后才会确认,这种配置能够极大地提高 Kafka 的一致性保障。
3.2.4 总结



  • 顺序包管:通过生产者的分区键选择、服务端的分区设计和消费者的单线程读取,Kafka 能够包管分区内的消息顺序。
  • 一致性包管:通过服务端的副本机制和生产者端简直认机制,Kafka 能够确保消息在写入时不会丢失,并在 Broker 故障时保持数据的一致性。
四、Kafka 的可靠性保障机制

Kafka 作为分布式消息中心件,能够在大规模分布式环境中实现高可靠性的数据传输。Kafka 的可靠性主要通过重试机制、确认机制、数据持久化和副本机制来保障。本章节具体先容 Kafka 怎样通过这些机制确保消息传递的可靠性,并阐明重传机制的配置及其工作过程。
4.1 怎样确保 Kafka 的可靠性

Kafka 的可靠性由生产者端的配置和服务端的机制共同保障。生产者端主要通过重试机制、确认机制和数据持久化来确保消息不丢失,而服务端通太过区副本和自动故障转移来保障系统的高可用性

  • 重试机制:生产者在消息发送失败时,会根据配置的重试策略重新发送消息,以确保暂时性故障不会导致消息丢失。
  • 确认机制(ACKs):生产者通过配置确认机制来确保消息成功写入 Kafka 集群,从而避免因写入失败导致的数据丢失。
  • 副本机制:Kafka 服务端通过为每个分区创建多个副本,包管数据纵然在节点故障时也能恢复,确保消息的一致性和可靠性。
  • 数据持久化:Kafka 将消息持久化到磁盘,纵然在系统重启后也能确保消息不丢失。
4.2 重试机制的配置与工作原理

Kafka 的重试机制是确保消息在瞬时网络故障或服务端不可用时,不会容易丢失。生产者可以通过配置文件中的 retries 参数来设置重试次数,retry.backoff.ms 参数来设置重试间隔时间。生产者在吸收到失败的响应或超时后,会实验重新发送消息。
配置示例
  1. Properties props = new Properties();
  2. props.put("bootstrap.servers", "localhost:9092");  // 指定 Kafka Broker 地址
  3. props.put("acks", "all");  // 消息确认机制,等待所有副本确认,确保最高一致性
  4. props.put("retries", 3);  // 最大重试次数为 3
  5. props.put("retry.backoff.ms", 100);  // 每次重试之间的间隔为 100 毫秒
  6. props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
  7. props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
  8. KafkaProducer<String, String> producer = new KafkaProducer<>(props);  // 创建 Kafka 生产者
  9. // 此处省略发送消息逻辑
  10. producer.close();  // 关闭生产者
复制代码
表明


  • retries:设置了生产者的最大重试次数。当发送消息失败时,生产者会根据这个配置进行重新实验。
  • retry.backoff.ms:设置每次重试之间的等待时间,以避免频繁重试对服务端造成冲击。
4.3 信令图示:重试机制的工作流程

以下信令图展示了重试机制在 Kafka 生产者和服务端之间的现实工作过程。
     表明

  • 生产者发送消息:生产者将消息发送给服务端的 Leader 副本。
  • 发送失败触发重试:假如 Leader 副本因网络故障、超时或不可用导致消息发送失败,生产者会进入重试逻辑。
  • 重试发送消息:根据 retries 的配置,生产者会重新实验发送消息。
  • 同步成功确认:在重试成功后,Leader 副本会将消息同步给 Follower 副本。
  • 确认消息成功:同步完成后,Leader 副本确认消息写入成功,并将确认返回给生产者。
4.4 重试次数超限的结果

当生产者的重试次数凌驾 retries 配置的最大值时,会出现以下结果:

  • 消息抛弃:假如生产者重试多次后依然无法成功发送消息,消息将被抛弃。
  • 非常抛出:生产者会抛出 TimeoutException 或其他干系非常,告知上层应用发送失败。
  • 处剃头起:应用程序可以捕获非常,进行日记记录、报警或将失败的消息生存到备用存储中,以便后续处理。
4.5 怎样提高 Kafka 的可靠性



  • 合理配置重试机制:根据业务需求设置合适的重试次数和重试间隔,避免频繁失败。
  • 启用幂等性:通过配置 enable.idempotence=true,确保消息在重试过程中不会导致重复。
  • 监控和报警:对生产者的非常进行监控,当凌驾重试次数时及时报警,采取应急措施。
总结

Kafka 的重试机制和确认机制共同包管了消息传递的高可靠性。通过合理配置重试次数、确认机制和副本同步,Kafka 能够在分布式环境中有效抵抗各种网络故障和节点失效,确保消息不丢失且按顺序传递。
五、怎样包管 Kafka 的高可用性

Kafka 的高可用性设计使得它在大规模应用中能够保持稳定运行,纵然部分节点故障也不会停止服务。Kafka 通太过区复制、副本推举、再均衡和数据持久化等机制,确保了高可用性。
5.1 副本机制

Kafka 使用分区副本(Replica)机制来实现高可用性。每个分区有一个 Leader 副本和多个 Follower 副本,Leader 副本负责全部的读写操纵,而 Follower 副本则从 Leader 副本同步数据。当 Leader 副本失效时,Kafka 会自动推举一个同步的 Follower 作为新的 Leader


  • 副本同步:确保全部副本的数据一致,避免在 Leader 切换时出现数据丢失。
  • 自动推举:Leader 副本故障后,Kafka 自动推举新的 Leader 副本,避免服务停止。
5.2 分区再均衡

分区再均衡(Rebalance)是 Kafka 包管高可用性的焦点功能之一。当 Kafka 集群的 Broker 发生变动(新增、宕机)时,Kafka 会自动进行分区再均衡,将分区重新分配到可用的 Broker 上,确保负载均衡。


  • 触发条件:分区再均衡在 Broker 加入、退出或分区 Leader 变动时触发。
  • 再均衡过程:Kafka 将分区重新分配给合适的 Broker,避免某个 Broker 负载过重。
5.3 多 Broker 摆设与扩展

Kafka 通过程度扩展多个 Broker 来提升系统的高可用性和扩展性。在一个多 Broker 的 Kafka 集群中,纵然部分 Broker 出现故障,其他 Broker 仍能继续提供服务。


  • 容错性:多个 Broker 的摆设方式包管了系统的高容错性,避免单点故障。
  • 程度扩展:增加 Broker 可以提升系统的处理能力,满足不断增长的业务需求。
5.4 数据持久化

Kafka 的持久化机制确保消息不会因系统故障而丢失。全部消息在写入分区日记文件后即被持久化存储,这些日记文件会保留一段时间或直到被消费者读取完毕。


  • 日记文件保留:消息写入日记文件后即持久化,除非凌驾配置的生存期限或手动删除。
  • 防止数据丢失:纵然系统重启或 Broker 故障,已持久化的消息仍能被恢复,确保数据完整性。
总结
通过副本机制、分区再均衡、数据持久化和多 Broker 摆设,Kafka 实现了出色的高可用性和可靠性。纵然在大规模的分布式环境中,Kafka 也能包管消息的可靠传输和系统的稳定运行,成为现代数据处理和消息传递的重要基础设施。
   ✨ 我是专业牛,一个渴望成为大牛
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

张裕

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表