数据仓库与分析「Kafka」消费者篇 - Powered by Discuz! Archiver

天空闲话 发表于 2024-7-28 08:42:55

「Kafka」消费者篇

「Kafka」消费者篇

Kafka 消费方式

https://i-blog.csdnimg.cn/blog_migrate/ce98d69d7d226c136eec8c2f3a126523.png
Kafka 消费者工作流程

消费者总体工作流程

https://i-blog.csdnimg.cn/blog_migrate/0870b03afd73285a9145274dd08339c2.png
新版本（0.9之后）的 offset 生存在 kafka 的 Topic 里，持久化到磁盘，可靠性有保障。
老版本（0.9之前）的 offset 生存在 Zookeeper 的 consumers 节点路径下。
为什么转移了呢？假如所有的消费者都把 offset 维护在 Zookeeper 中，那么所有的消费者都必要跟 Zookeeper 进行大量的交互，就会导致网络数据传输非常频繁，压力较大。所以存储在主题里更易于维护管理。
消费者组原理

消费者组

https://i-blog.csdnimg.cn/blog_migrate/c1d86648544860db7e5e4685313dff0b.png
https://i-blog.csdnimg.cn/blog_migrate/4f62ab0697ee9c6b08c77202fd8a89c9.png
消费者组初始化流程

https://i-blog.csdnimg.cn/blog_migrate/d22b5cd6e08b5ce64f5a170f84c850ee.png
消费者组详细消费流程

https://i-blog.csdnimg.cn/blog_migrate/da726c8ce7ba5443ab1816931a17bb2c.png

[*]起首，kafka 必要和消费者组创建网络连接客户端：ConsumerNetworkClient
[*]消费者组发送消费哀求 sendFetches，颠末客户端，调用 send 方法发送哀求到 kafka

[*]这里会设置 3 个参数：

[*]fetch.min.bytes：每批次最小抓取巨细，默认1字节
[*]fetch.max.wait.ms：一批数据最小值未达到的超时时间，默认500ms
[*]fetch.max.bytes：每批次最大抓取巨细，默认50m

[*]通过回调方法 onSuccess 把对应的结果拉取过来，存储在 completedFetches 队列中
[*]消费者调用 fetchedRecords 方法从队列中抓取数据

[*]max.poll.records：一次拉取数据返回消息的最大条数，默认500条

[*]再颠末反序列化、拦截器，末了处理数据。

[*]在生产端也有拦截器，拦截器的作用：整个 kafka 集群不会处理数据，只会存数据，那么处理数据就可以在生产端和消费端的拦截器去做，而且拦截器可以方便的监控 kafka 的运行情况。这也是 kafka 高吞吐量的缘故原由。

消费者紧张参数

https://i-blog.csdnimg.cn/blog_migrate/42ca9082a78bfdb0faf5589a23bdc13b.png
https://i-blog.csdnimg.cn/blog_migrate/a44987c896c25348be4b1d54181ff3e2.png
消费者 API

独立消费者案例（订阅主题）

[*] 需求：创建一个独立消费者，消费 first 主题中数据。
https://i-blog.csdnimg.cn/blog_migrate/3be6b972c419594aaadb536bc16c26a1.png
留意：在消费者 API 代码中必须配置消费者组 id。下令行启动消费者不填写消费者组 id 会被自动填写随机的消费者组 id。
[*] 实现步调

[*]创建包名：com.atguigu.kafka.consumer
[*]编写代码import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.common.serialization.StringDeserializer;
import java.time.Duration;
import java.util.ArrayList;
import java.util.Properties;

class CustomConsumer {
public static void main(String[] args) {
   // 0.创建消费者的配置对象
   Properties properties = new Properties();

   // 给消费者配置对象添加参数
   properties.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "hadoop102:9092");

   // 反序列化必须
   properties.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
   properties.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());

   // 配置消费者组id（组名任意起名）必须
   properties.put(ConsumerConfig.GROUP_ID_CONFIG, "test");

   // 1.创建消费者对象
   KafkaConsumer<String, String> kafkaConsumer = new KafkaConsumer<>(properties);

   // 2.订阅要消费的主题（可以消费多个主题）
   ArrayList<String> topics = new ArrayList<>();
   topics.add("first");
   kafkaConsumer.subscribe(topics);

   // 3.消费数据
   while (true) {
         // 设置每过1s消费一批数据
         ConsumerRecords<String, String> consumerRecords = kafkaConsumer.poll(Duration.ofSeconds(1));
         // 打印消费到的数据
         for (ConsumerRecord<String, String> consumerRecord : consumerRecords) {
            System.out.println(consumerRecord);
         }
   }
}
}

[*] 测试

[*]在 IDEA 中实行消费者步伐
[*]在 Kafka 集群控制台，创建 Kafka 生产者，并输入数据$ bin/kafka-console-producer.sh --bootstrap-server hadoop102:9092 --topic first
>hello

[*]在 IDEA 控制台观察吸收到的数据ConsumerRecord(topic = first, partition = 1, leaderEpoch = 3, offset = 0, CreateTime = 1629160841112, serialized key size = -1, serialized value size = 5, headers = RecordHeaders(headers = [], isReadOnly = false), key = null, value = hello)

独立消费者案例（订阅分区）

[*] 需求：创建一个独立消费者，消费 first 主题 0 号分区的数据。
https://i-blog.csdnimg.cn/blog_migrate/cdedf5b664bc2e03df0ba41b07080acf.png
[*] 实现步调

[*]代码编写import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.common.serialization.StringDeserializer;
import java.time.Duration;
import java.util.ArrayList;
import java.util.Properties;

class CustomConsumer {
public static void main(String[] args) {
   // 0.创建消费者的配置对象
   Properties properties = new Properties();

   // 给消费者配置对象添加参数
   properties.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "hadoop102:9092");

   // 反序列化必须
   properties.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
   properties.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());

   // 配置消费者组id（组名任意起名）必须
   properties.put(ConsumerConfig.GROUP_ID_CONFIG, "test");

   // 1.创建消费者对象
   KafkaConsumer<String, String> kafkaConsumer = new KafkaConsumer<>(properties);

   // 2.订阅某个主题的某个分区
ArrayList<TopicPartition> topicPartitions = new ArrayList<>();
topicPartitions.add(new TopicPartition("first", 0));
kafkaConsumer.assign(topicPartitions);

   // 3.消费数据
   while (true) {
         // 设置每过1s消费一批数据
         ConsumerRecords<String, String> consumerRecords = kafkaConsumer.poll(Duration.ofSeconds(1));
         // 打印消费到的数据
         for (ConsumerRecord<String, String> consumerRecord : consumerRecords) {
            System.out.println(consumerRecord);
         }
   }
}
}

[*] 测试

[*] 在 IDEA 中实行消费者步伐
[*] 在 IDEA 中实行生产者步伐在控制台观察生成几个 0 号分区的数据
for (int i = 0; i < 5; i++) {
kafkaProducer.send(new ProducerRecord<>("first", "atguigu " + i), new Callback() {
@Override
public void onCompletion(RecordMetadata metadata, Exception e) {
if (e == null) {
System.out.println("主题：" + metadata.topic() + "->" +
   "分区：" + metadata.partition());
} else {
e.printStackTrace();
}
}
});
}
first 0 381
first 0 382
first 2 168
first 1 165
first 1 166

[*] 在 IDEA 控制台，观察吸收到的数据，只能消费到 0 号分区数据表现正确https://i-blog.csdnimg.cn/blog_migrate/4392ab62cd9c0457f205dddd40d93bf4.png

消费者组案例

[*] 需求：测试同一个主题的分区数据，只能由一个消费者组中的一个消费。
https://i-blog.csdnimg.cn/blog_migrate/c4f3efadb7494f66011ac1370fe1408e.png
[*] 案例实操

[*] 复制两份基础消费者的代码，在 IDEA 中同时启动，即可启动同一个消费者组中的三个消费者
[*] 启动代码中的生产者发送消息，分别发送到了0、1、2，三个分区（假如只发送到一个分区，可以在发送时增加延长代码 Thread.sleep(2); ）
https://i-blog.csdnimg.cn/blog_migrate/059bdb7b79830083be49c7cafad37d5b.png
[*] 在 IDEA 控制台即可看到三个消费者在消费不同分区的数据
https://i-blog.csdnimg.cn/blog_migrate/cd82d3f9668f230ddea4400ebf8de8c7.png
https://i-blog.csdnimg.cn/blog_migrate/a6ea340492e9f301413e74369149dd24.png
https://i-blog.csdnimg.cn/blog_migrate/7864b1a29abfa083934d5dd7d7aea252.png

一个分区的数据只由消费者组中的一个消费者消费。
生产经验—分区的分配以及再均衡

https://i-blog.csdnimg.cn/blog_migrate/3908683672f933c71986597fb2928c75.png
Consumer Leader 就是根据分区分配计谋，制定消费方案。
https://i-blog.csdnimg.cn/blog_migrate/405862b83cced082318cb2ff4b952943.png
https://i-blog.csdnimg.cn/blog_migrate/6ef09bf019c0fdac28e9de00fd584231.png
Range 以及再均衡

https://i-blog.csdnimg.cn/blog_migrate/618ce4402cbaabaa912cd956d664a620.png
Range 分区分配计谋案例

[*] 修改主题 first 为 7 个分区
$ bin/kafka-topics.sh --bootstrap-server hadoop102:9092 --alter --topic first --partitions 7
留意：分区数可以增加，但是不能淘汰。
[*] 同时启动 3 个消费者：CustomConsumer、CustomConsumer1、CustomConsumer2 组成消费者组，组名都为“test”
[*] 启动 CustomProducer 生产者，发送 500 条消息，随机发送到不同的分区
for (int i = 0; i < 500; i++) {
kafkaProducer.send(new ProducerRecord<>("first", "atguigu " + i), new Callback() {
   @Override
   public void onCompletion(RecordMetadata metadata, Exception e) {
         if (e == null) {
            System.out.println("主题：" + metadata.topic() + "->" +
                     "分区：" + metadata.partition());
         } else {
            e.printStackTrace();
         }
   }
});
}

[*] 观察 3 个消费者分别消费哪些分区的数据
https://i-blog.csdnimg.cn/blog_migrate/c1a25243a9c29e3d5026b316df6c4d12.png
https://i-blog.csdnimg.cn/blog_migrate/6947462712eebf2bb876bca30986cd14.png
符合预期。
Range 分区分配再均衡案例

[*]停止掉 0 号消费者，快速重新发送消息观看结果（45s 以内，越快越好）

[*]1 号消费者：消费到 3、4 号分区数据。
[*]2 号消费者：消费到 5、6 号分区数据。
[*]0 号消费者的任务会整体被分配到 1 号消费者或者 2 号消费者。
[*]说明：0 号消费者挂掉后，消费者组必要按照超时时间 45s 来判断它是否退出，所以必要等待，时间到了 45s 后，判断它真的退出就会把任务分配给其他 broker 实行。

[*]再次重新发送消息观看结果（45s 以后）

[*]1 号消费者：消费到 0、1、2、3 号分区数据。
[*]2 号消费者：消费到 4、5、6 号分区数据。
[*]说明：消费者 0 已经被踢出消费者组，所以重新按照 range 方式分配。

RoundRobin 以及再均衡

https://i-blog.csdnimg.cn/blog_migrate/88b8802cfb33ec44aad4f2db8152eeb0.png
RoundRobin 分区分配计谋案例

[*] 依次在 CustomConsumer、CustomConsumer1、CustomConsumer2 三个消费者代码中修改分区分配计谋为 RoundRobin
// 修改分区分配策略
properties.put(ConsumerConfig.PARTITION_ASSIGNMENT_STRATEGY_CONFIG, "org.apache.kafka.clients.consumer.RoundRobinAssignor");

[*] 重启 3 个消费者，重复发送消息的步调，观看分区结果
https://i-blog.csdnimg.cn/blog_migrate/60ebfe367c3e5aef5d7eaaa03200a72d.png
符合预期。
RoundRobin 分区分配再均衡案例

[*]停止掉 0 号消费者，快速重新发送消息观看结果（45s 以内，越快越好）

[*]1 号消费者：消费到 2、5 号分区数据
[*]2 号消费者：消费到 4、1 号分区数据
[*]0 号消费者的任务会按照 RoundRobin 的方式，把数据轮询分成 0 、6 和 3 号分区数据，分别由 1 号消费者卓和 2 号消费者消费。
[*]说明：0 号消费者挂掉后，消费者组必要按照超时时间 45s 来判断它是否退出，所以必要等待，时间到了 45s 后，判断它真的退出就会把任务分配给其他 broker 实行。

[*]再次重新发送消息观看结果（45s 以后）

[*]1 号消费者：消费到 0、2、4、6 号分区数据
[*]2 号消费者：消费到 1、3、5 号分区数据
[*]说明：消费者 0 已经被踢出消费者组，所以重新按照 RoundRobin 方式分配。

Sticky 以及再均衡

**粘性分区定义：**可以理解为分配的结果带有“粘性的”。即在实行一次新的分配之前，考虑上一次分配的结果，尽量少的调整分配的变更，可以节流大量的开销。
粘性分区是 Kafka 从 0.11.x 版本开始引入这种分配计谋，起首会尽量均衡的放置分区到消费者上面，在出现同一消费者组内消费者出现问题的时间，会尽量保持原有分配的分区不变化。

[*] 需求：设置主题为 first，7 个分区；预备 3 个消费者，采用粘性分区计谋，并进行消费，观察消费分配情况。然后再停止其中一个消费者，再次观察消费分配情况。
[*] 步调

[*] 修改分区分配计谋为粘性 Sticky
// 修改分区分配策略
ArrayList<String> startegys = new ArrayList<>();
startegys.add("org.apache.kafka.clients.consumer.StickyAssignor");

properties.put(ConsumerConfig.PARTITION_ASSIGNMENT_STRATEGY_CONFIG, startegys);

[*] 使用同样的生产者发送 500 条消息
https://i-blog.csdnimg.cn/blog_migrate/5a6ea8baf81a3b9cc25c204deb71cfb8.png
https://i-blog.csdnimg.cn/blog_migrate/d1ffb648298722a5e973ae5e13d3bdc4.png
可以多重启频频观察，发现会尽量保持分区的个数近似分别分区。
      与 RoundRobin 计谋区别：RoundRobin 是有序的，按照顺序轮询分配，而 Sticky 是随机分配的，而且在出现同一消费组内消费者出现问题的时间，会尽量保持原有分配的分区不变化。

Sticky 分区分配再均衡案例

[*]停止掉 0 号消费者，快速重新发送消息观看结果（45s 以内，越快越好）

[*]1 号消费者：消费到 2、5、3 号分区数据。
[*]2 号消费者：消费到 4、6 号分区数据。
[*]0 号消费者的任务会按照粘性规则，尽可能均衡的随机分成 0 和 1 号分区数据，分别由 1 号消费者或者 2 号消费者消费。
[*]说明：0 号消费者挂掉后，消费者组必要按照超时时间 45s 来判断它是否退出，所以必要等待，时间到了 45s 后，判断它真的退出就会把任务分配给其他 broker 实行。

[*]再次重新发送消息观看结果（45s 以后）

[*]1 号消费者：消费到 2、3、5 号分区数据。
[*]2 号消费者：消费到 0、1、4、6 号分区数据。
[*]说明：消费者 0 已经被踢出消费者组，所以重新按照粘性方式分配。出现同一消费组内消费者出现问题的时间，会尽量保持原有分配的分区不变化。

CooperativeSticky以及再均衡

上述三种分区分配计谋均是基于 eager 协议，Kafka2.4.0开始引入 CooperativeSticky 计谋——在不绝止消费的情况下进行增量再均衡。
CooperativeSticky 与之前的 Sticky 虽然都是维持原来的分区分配方案，最大的区别是：Sticky仍旧是基于 eager 协议，分区重分配时间，都必要 consumers 先放弃当前持有的分区，重新加入consumer group；而 CooperativeSticky 基于 cooperative 协议，该协议将原来的一次全局分区重均衡，改成多次小规模分区重均衡。
比方：一个Topic(T0，三个分区)，两个 consumers(consumer1、consumer2) 均订阅 Topic(T0)。
假如consumers订阅信息为：
consumer1T0P0、T0P2consumer2T0P1 此时，新的 consumer3 加入消费者组，那么基于 eager 协议的分区重分配计谋流程：
https://i-blog.csdnimg.cn/blog_migrate/c18689e5c89ef02c9aae7477afff646a.png

[*]consumer1、 consumer2 正常发送心跳信息到 Group Coordinator。
[*]随着 consumer3 加入，Group Coordinator 收到对应的 Join Group 哀求，Group Coordinator 确认有新成员必要加入消费者组。
[*]Group Coordinator 通知 consumer1 和 consumer2，必要 rebalance 了。
[*]consumer1 和 consumer2 放弃（revoke）当前各自持有的已有分区，重新发送 Join Group 哀求到 Group Coordinator。
[*]Group Coordinator 依据指定的分区分配计谋的处理逻辑，生成新的分区分配方案，然后通过 Sync Group 哀求，将新的分区分配方案发送给 consumer1、consumer2、consumer3。
[*]所有 consumers 按照新的分区分配，重新开始消费数据。
而基于 cooperative 协议的分区分配计谋的流程：
https://i-blog.csdnimg.cn/blog_migrate/5054c25d871cb4125825f81a5ac5a068.png

[*]consumer1、 consumer2 正常发送心跳信息到 Group Coordinator。
[*]随着 consumer3 加入，Group Coordinator 收到对应的 Join Group 哀求，Group Coordinator确认有新成员必要加入消费者组。
[*]Group Coordinator 通知 consumer1 和 consumer2，必要 rebalance 了。
[*]consumer1、consumer2 通过 Join Group 哀求将已经持有的分区发送给 Group Coordinator。

[*]留意：并没有放弃（revoke）已有分区。

[*]Group Coordinator 取消 consumer1 对分区 p2 的消费，然后发送 sync group 哀求给 consumer1、consumer2。
[*]consumer1、consumer2 吸收到分区分配方案，重新开始消费。至此，一次 rebalance 完成。
[*]当前 p2 也没有被消费，再次触发下一轮 rebalance，将 p2 分配给 consumer3 消费。
参考：Kafka消费者分区分配计谋详解
该文把这 4 个计谋写的都非常全面。
offset 位移

offset 的默认维护位置

https://i-blog.csdnimg.cn/blog_migrate/d33602a375c7237d7fb70ae6fe0f0c48.png
__consumer_offsets 主题内里采用 key 和 value 的方式存储数据。key 是 group.id+topic+分区号，value 就是当前 offset的值。每隔一段时间，kafka 内部会对这个 topic 进行 compact，也就是每个 group.id+topic+分区号只保留最新数据。
消费 offset 案例
https://i-blog.csdnimg.cn/blog_migrate/9a9edbe0658761d1e6fd1a2ebdcdf332.png
https://i-blog.csdnimg.cn/blog_migrate/7047c878a507d8a449ffcc0dfe8695b7.png
自动提交 offset

https://i-blog.csdnimg.cn/blog_migrate/2078b1b07a7821d89cecffd485719d7c.png
https://i-blog.csdnimg.cn/blog_migrate/16ce59256c6946895b53f77719a0201a.png
消费者自动提交 offset
import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import java.time.Duration;
import java.util.Arrays;
import java.util.Properties;

public class CustomConsumerAutoOffset {
public static void main(String[] args) {
   // 1. 创建 kafka 消费者配置类
   Properties properties = new Properties();
   // 2. 添加配置参数
   // 添加连接
   properties.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "hadoop102:9092");
   // 配置序列化必须
   properties.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");
   properties.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");
   // 配置消费者组
   properties.put(ConsumerConfig.GROUP_ID_CONFIG, "test");

   // 是否自动提交 offset，默认为true
   properties.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, true);

   // 提交 offset 的时间周期 1000ms，默认 5s
   properties.put(ConsumerConfig.AUTO_COMMIT_INTERVAL_MS_CONFIG, 1000);

   // 3. 创建 kafka 消费者
   KafkaConsumer<String, String> consumer = new KafkaConsumer<>(properties);

   // 4. 设置消费主题形参是列表
   consumer.subscribe(Arrays.asList("first"));

   // 5. 消费数据
   while (true) {
         // 读取消息
         ConsumerRecords<String, String> consumerRecords = consumer.poll(Duration.ofSeconds(1));
         // 输出消息
         for (ConsumerRecord<String, String> consumerRecord : consumerRecords) {
            System.out.println(consumerRecord.value());
         }
   }
}
}
手动提交 offset

https://i-blog.csdnimg.cn/blog_migrate/f91f8a551a3f80538b3768b2ca9a2504.png
同步提交 offset
由于同步提交 offset 有失败重试机制，故更加可靠，但是由于不停等待提交结果，提交的服从比较低。
以下为同步提交 offset 的示例：
import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import java.time.Duration;
import java.util.Arrays;
import java.util.Properties;

public class CustomConsumerByHandSync {
public static void main(String[] args) {
   // 1. 创建 kafka 消费者配置类
   Properties properties = new Properties();
   // 2. 添加配置参数
   // 添加连接
   properties.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "hadoop102:9092");
   // 配置序列化必须
   properties.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");
   properties.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");
   // 配置消费者组
   properties.put(ConsumerConfig.GROUP_ID_CONFIG, "test");

   // 是否自动提交 offset
   properties.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, false);

   // 3. 创建 kafka 消费者
   KafkaConsumer<String, String> consumer = new KafkaConsumer<>(properties);

   // 4. 设置消费主题形参是列表
   consumer.subscribe(Arrays.asList("first"));

   // 5. 消费数据
   while (true) {
         // 读取消息
         ConsumerRecords<String, String> consumerRecords = consumer.poll(Duration.ofSeconds(1));
         // 输出消息
         for (ConsumerRecord<String, String> consumerRecord : consumerRecords) {
            System.out.println(consumerRecord.value());
         }
         // 同步提交 offset
         consumer.commitSync();
   }
}
}
异步提交 offset
虽然同步提交 offset 更可靠一些，但是由于其会壅闭当前线程，直到提交成功。因此吞吐量会受到很大的影响。因此更多的情况下，会选用异步提交 offset 的方式。
以下为异步提交 offset 的示例，更换 KafkaConsumer 调用的 API 即可：
// 异步提交 offset
consumer.commitAsync();
指定 offset 消费

auto.offset.reset = earliest | latest | none，默认是 latest。
当 Kafka 中没有初始偏移量（消费者组第一次消费）或服务器上不再存在当前偏移量时（比方该数据已被删除），该怎么办？

[*] earliest：自动将偏移量重置为最早的偏移量，--from-beginning
[*] latest（默认值）：自动将偏移量重置为最新偏移量
[*] none：假如未找到消费者组的先前偏移量，则向消费者抛出异常
https://i-blog.csdnimg.cn/blog_migrate/946e0c550560a81a4779ff7b307a9d03.png
[*] 任意指定 offset 位移开始消费
import org.apache.kafka.clients.consumer.*;
import org.apache.kafka.common.TopicPartition;
import org.apache.kafka.common.serialization.StringDeserializer;
import java.time.Duration;
import java.util.*;

public class CustomConsumerSeek {
public static void main(String[] args) {
   // 0 配置信息
   Properties properties = new Properties();
   // 连接
   properties.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "hadoop102:9092");
   // key value 反序列化
   properties.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
   properties.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
   properties.put(ConsumerConfig.GROUP_ID_CONFIG, "test2");

   // 1 创建一个消费者
   KafkaConsumer<String, String> kafkaConsumer = new KafkaConsumer<>(properties);

   // 2 订阅一个主题
   ArrayList<String> topics = new ArrayList<>();
   topics.add("first");
   kafkaConsumer.subscribe(topics);
   Set<TopicPartition> assignment = kafkaConsumer.assignment();
   // 保证分区分配方案已经制定完毕
   // 消费者初始化流程：
   // 1)消费者跟coordinator汇报，我要加入消费者组
   // 2)然后coordinator会选择一个Consumer Leader，把各Topic的情况给到它
   // 3)Consumer Leader会制定分区分配方案，发给coordinator
   // 4)coordinator再把分区分配方案下发给所有Consumer
   // 所以需要等待一段时间。
   while (assignment.size() == 0) {
         kafkaConsumer.poll(Duration.ofSeconds(1));
         // 获取消费者分区分配信息（有了分区分配信息才能开始消费）
         assignment = kafkaConsumer.assignment();
   }
   // 遍历所有分区，并指定 offset 从 1700 的位置开始消费
   for (TopicPartition tp : assignment) {
         kafkaConsumer.seek(tp, 1700);
   }
   // 3 消费该主题数据
   while (true) {
         ConsumerRecords<String, String> consumerRecords = kafkaConsumer.poll(Duration.ofSeconds(1));
         for (ConsumerRecord<String, String> consumerRecord : consumerRecords) {
            System.out.println(consumerRecord);
         }
   }
}
}
留意：每次实行完，必要修改消费者组名。
指定时间消费

[*]需求：在生产环境中，会碰到近来消费的几个小时数据异常，想重新按照时间消费。

[*]比方要求按照时间消费前一天的数据，怎么处理？

[*]操作步调：import org.apache.kafka.clients.consumer.*;
import org.apache.kafka.common.TopicPartition;
import org.apache.kafka.common.serialization.StringDeserializer;
import java.time.Duration;
import java.util.*;

public class CustomConsumerSeekTime {
public static void main(String[] args) {
   // 0 配置信息
   Properties properties = new Properties();
   // 连接
   properties.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "hadoop102:9092");
   // key value 反序列化
   properties.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
   properties.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
   properties.put(ConsumerConfig.GROUP_ID_CONFIG, "test2");

   // 1 创建一个消费者
   KafkaConsumer<String, String> kafkaConsumer = new KafkaConsumer<>(properties);

   // 2 订阅一个主题
   ArrayList<String> topics = new ArrayList<>();
   topics.add("first");
   kafkaConsumer.subscribe(topics);
   Set<TopicPartition> assignment = kafkaConsumer.assignment();
   // 保证分区分配方案已经制定完毕
   while (assignment.size() == 0) {
         kafkaConsumer.poll(Duration.ofSeconds(1));
         // 获取消费者分区分配信息（有了分区分配信息才能开始消费）
         assignment = kafkaConsumer.assignment();
   }
   // 希望把时间转换为对应的offset
   Map<TopicPartition, Long> timestampToSearch = new HashMap<>();
   // 封装集合存储，每个分区对应一天前的数据
   for (TopicPartition topicPartition : assignment) {
         timestampToSearch.put(topicPartition, System.currentTimeMillis() - 24 * 3600 * 1000);
   }
   // 获取从 1 天前开始消费的每个分区的 offset
   Map<TopicPartition, OffsetAndTimestamp> offsets = kafkaConsumer.offsetsForTimes(timestampToSearch);
   // 遍历每个分区，对每个分区设置消费时间。
   for (TopicPartition topicPartition : assignment) {
         OffsetAndTimestamp offsetAndTimestamp = offsets.get(topicPartition);
         // 根据时间指定开始消费的位置
         if (offsetAndTimestamp != null) {
            kafkaConsumer.seek(topicPartition, offsetAndTimestamp.offset());
         }
   }
   // 3 消费该主题数据
   while (true) {
         ConsumerRecords<String, String> consumerRecords = kafkaConsumer.poll(Duration.ofSeconds(1));
         for (ConsumerRecord<String, String> consumerRecord : consumerRecords) {
            System.out.println(consumerRecord);
         }
   }
}
}

重复消费和漏消费

[*]重复消费：已经消费了数据，但是 offset 没提交。
[*]漏消费：先提交 offset 后消费，有可能会造成数据的漏消费。
https://i-blog.csdnimg.cn/blog_migrate/151c178eb8f21955ed6fdc2d470641e5.png
生产经验—消费者事务

https://i-blog.csdnimg.cn/blog_migrate/f59a2fc56f0ec2cedaae22fe564c9c73.png
生产经验—数据积压（消费者如何进步吞吐量）

https://i-blog.csdnimg.cn/blog_migrate/47cffc2beeb3e1d3532eecfb6e647a7d.png
https://i-blog.csdnimg.cn/blog_migrate/5423d211cb20abe9dfb121e3a78603c8.png
生产者进步吞吐量：

[*]batch.size：默认 16k
[*]linger.ms：默认 0ms
[*]compression.type：数据压缩，默以为 None
[*]buffer.memory：RecordAccumlator 缓冲区巨细，默认 32M
消费者进步吞吐量：

[*]增加 Topic 的分区数，同时增加消费者数目
[*]max.poll.records：进步每批次拉取的数目，默认500条
在生产环境中合理调整这几个参数，达到最大化吞吐量。

条记整理自b站尚硅谷视频教程：【尚硅谷】Kafka3.x教程（从入门到调优，深入全面）

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

「Kafka」消费者篇