Kafka元数据

打印 上一主题 下一主题

主题 670|帖子 670|积分 2010

这篇文章将重要介绍 Kafka 中的元数据和生产者拉取元数据的过程。生产者在发送消息时,需要获取消息所属的 Topic 在 Broker 节点上的分布情况,然后将消息发送到对应的节点,因此,在生产者发送消息时,需要有当前 Topic 的元数据信息。本篇文章在 Kafka 生产者拉取元数据代码的底子上,对元数据内部的数据结构和生产者拉取元数据的过程进行介绍,并且对生产者拉取元数据的代码增长了注释来方便明确。
1. 元数据

Metadata 是 Kafka 中的元数据类,负责对元数据进行管理,Metadata类内部通过大量synchronized方法来保证多线程下修改元数据的线程安全。以下是 Metadata 内部包含的重要数据结构:
  1. public class Metadata implements Closeable {
  2.     private final Logger log;
  3.     // 重试间隔时间
  4.     private final ExponentialBackoff refreshBackoff;
  5.     // 元数据过期时间
  6.     private final long metadataExpireMs;
  7.     // 元数据版本号,每次元数据响应都会加 1
  8.     private int updateVersion;  // bumped on every metadata response
  9.     // 有新主题(Topic)的版本号,每次有新主题加 1
  10.     private int requestVersion; // bumped on every new topic addition
  11.     // 上一次更新时间
  12.     private long lastRefreshMs;
  13.     // 上一次成功更新时间
  14.     private long lastSuccessfulRefreshMs;
  15.     private long attempts;
  16.     private KafkaException fatalException;
  17.     private Set<String> invalidTopics;
  18.     private Set<String> unauthorizedTopics;
  19.     // **当前保存的元数据**
  20.     private volatile MetadataSnapshot metadataSnapshot = MetadataSnapshot.empty();
  21.     // 需要全部主题更新
  22.     private boolean needFullUpdate;
  23.     // 需要部分主题更新
  24.     private boolean needPartialUpdate;
  25.     private long equivalentResponseCount;
  26.     private final ClusterResourceListeners clusterResourceListeners;
  27.     private boolean isClosed;
  28.     private final Map<TopicPartition, Integer> lastSeenLeaderEpochs;
  29.     /** Addresses with which the metadata was originally bootstrapped. */
  30.     private List<InetSocketAddress> bootstrapAddresses;
  31. }
复制代码
MetadataSnapshot 是当前生存的元数据。
  1. public class MetadataSnapshot {
  2.     // 集群 cluset id
  3.     private final String clusterId;
  4.     // 节点
  5.     private final Map<Integer, Node> nodes;
  6.     // Topic
  7.     private final Set<String> unauthorizedTopics;
  8.     private final Set<String> invalidTopics;
  9.     private final Set<String> internalTopics;
  10.     // controller 节点
  11.     private final Node controller;
  12.     // Partition 和对应的 Partition 元数据
  13.     private final Map<TopicPartition, PartitionMetadata> metadataByPartition;
  14.     // Topic 信息
  15.     private final Map<String, Uuid> topicIds;
  16.     private final Map<Uuid, String> topicNames;
  17.     // Cluster 集群信息
  18.     private Cluster clusterInstance;
  19. }
复制代码
Broker 节点
  1. public class Node {
  2.     // 节点 id
  3.     private final int id;
  4.     // 节点 id string
  5.     private final String idString;
  6.     // 节点地址
  7.     private final String host;
  8.     // 节点端口
  9.     private final int port;
  10.     // 节点机架
  11.     private final String rack;
  12. }
复制代码
Cluster 集群
  1. public final class Cluster {
  2.     private final boolean isBootstrapConfigured;
  3.     // 节点
  4.     private final List<Node> nodes;
  5.     private final Set<String> unauthorizedTopics;
  6.     private final Set<String> invalidTopics;
  7.     private final Set<String> internalTopics;
  8.     // Controller 节点
  9.     private final Node controller;
  10.     // Partition 和对应的 PartitionInfo
  11.     private final Map<TopicPartition, PartitionInfo> partitionsByTopicPartition;
  12.     // Topic 和对应的 PartitionInfo
  13.     private final Map<String, List<PartitionInfo>> partitionsByTopic;
  14.     private final Map<String, List<PartitionInfo>> availablePartitionsByTopic;
  15.     // 节点和对应的 PartitionInfo
  16.     private final Map<Integer, List<PartitionInfo>> partitionsByNode;
  17.     // 节点 Id 和对应的服务器节点
  18.     private final Map<Integer, Node> nodesById;
  19.     private final ClusterResource clusterResource;
  20.     // Topic 的 Id 和 Name
  21.     private final Map<String, Uuid> topicIds;
  22.     private final Map<Uuid, String> topicNames;
  23. }
复制代码
  1. public class TopicMetadata {
  2.     // Topic id
  3.     private final Uuid id;
  4.     // Topic name
  5.     private final String name;
  6.     // 分区数量
  7.     private final int numPartitions;
  8.     // 分区和对应的机架
  9.     private final Map<Integer, Set<String>> partitionRacks;
  10. }
复制代码
  1. public class PartitionMetadata {
  2.     // 版本号
  3.     private final int version;
  4.     // Topic id
  5.     private final Uuid topicId;
  6. }
复制代码
  1. public final class TopicPartition implements Serializable {
  2.     // 分区编号
  3.     private final int partition;
  4.     // Topic
  5.     private final String topic;
  6. }
复制代码
  1. public class PartitionInfo {
  2.     // Topic
  3.     private final String topic;
  4.     // 分区编号
  5.     private final int partition;
  6.     // Leader 所在的服务器节点
  7.     private final Node leader;
  8.     // 副本所在的服务器节点
  9.     private final Node[] replicas;
  10.     // **ISR**: 可以与 leader 保持同步的副本
  11.     private final Node[] inSyncReplicas;
  12.     private final Node[] offlineReplicas;
  13. }
复制代码
2. 发起元数据哀求


客户端调用 send() 来发送一条消息,send() 方法底层调用了 doSend() 方法。doSend() 方法中在发送消息前调用 waitOnMetadata() 哀求元数据。如下为 doSend() 方法中哀求元数据的部分。
  1. private Future<RecordMetadata> doSend(ProducerRecord<K, V> record, Callback callback) {
  2.     long nowMs = time.milliseconds();
  3.     ClusterAndWaitTime clusterAndWaitTime;
  4.     try {
  5.         // **请求元数据**
  6.         clusterAndWaitTime = waitOnMetadata(record.topic(), record.partition(), nowMs, maxBlockTimeMs);
  7.     } catch (KafkaException e) {
  8.         if (metadata.isClosed())
  9.             throw new KafkaException("Producer closed while send in progress", e);
  10.         throw e;
  11.     }
  12. }
复制代码
waitOnMetadata() 中起首尝试从已生存的元数据中获取 cluster 信息,如果失败,则会发起元数据哀求,调用 awaitUpdate() 阻塞当火线程等待拉取元数据。
  1. private ClusterAndWaitTime waitOnMetadata(String topic, Integer partition, long nowMs, long maxWaitMs) throws InterruptedException {
  2.     // 尝试从元数据中获取 cluster 信息
  3.     Cluster cluster = metadata.fetch();
  4.     // 判断是否是无效主题
  5.     if (cluster.invalidTopics().contains(topic))
  6.         throw new InvalidTopicException(topic);
  7.     // 将当前主题加入元数据
  8.     metadata.add(topic, nowMs);
  9.     // 尝试获取分区数量
  10.     Integer partitionsCount = cluster.partitionCountForTopic(topic);
  11.     // 如果存在则直接从当前保存的元数据中返回
  12.     if (partitionsCount != null && (partition == null || partition < partitionsCount))
  13.         return new ClusterAndWaitTime(cluster, 0);
  14.     // 如果不存在则开始请求元数据
  15.     long remainingWaitMs = maxWaitMs;
  16.     long elapsed = 0;
  17.     // Issue metadata requests until we have metadata for the topic and the requested partition,
  18.     // or until maxWaitTimeMs is exceeded. This is necessary in case the metadata
  19.     // is stale and the number of partitions for this topic has increased in the meantime.
  20.     long nowNanos = time.nanoseconds();
  21.     do {
  22.         if (partition != null) {
  23.             log.trace("Requesting metadata update for partition {} of topic {}.", partition, topic);
  24.         } else {
  25.             log.trace("Requesting metadata update for topic {}.", topic);
  26.         }
  27.         metadata.add(topic, nowMs + elapsed);
  28.         // 将 needFullUpdate 或 needPartialUpdate 设定为 true,返回 version
  29.         int version = metadata.requestUpdateForTopic(topic);
  30.         // 唤醒 sender 线程
  31.         sender.wakeup();
  32.         try {
  33.             // **调用 awaitUpdate() 阻塞当前线程等待拉取元数据**
  34.             metadata.awaitUpdate(version, remainingWaitMs);
  35.         } catch (TimeoutException ex) {
  36.             // Rethrow with original maxWaitMs to prevent logging exception with remainingWaitMs
  37.             throw new TimeoutException(
  38.                     String.format("Topic %s not present in metadata after %d ms.",
  39.                             topic, maxWaitMs));
  40.         }
  41.         // 尝试从元数据中获取 cluster 信息
  42.         cluster = metadata.fetch();
  43.         elapsed = time.milliseconds() - nowMs;
  44.         if (elapsed >= maxWaitMs) {
  45.             throw new TimeoutException(partitionsCount == null ?
  46.                     String.format("Topic %s not present in metadata after %d ms.",
  47.                             topic, maxWaitMs) :
  48.                     String.format("Partition %d of topic %s with partition count %d is not present in metadata after %d ms.",
  49.                             partition, topic, partitionsCount, maxWaitMs));
  50.         }
  51.         metadata.maybeThrowExceptionForTopic(topic);
  52.         remainingWaitMs = maxWaitMs - elapsed;
  53.         // 尝试获取分区数量
  54.         partitionsCount = cluster.partitionCountForTopic(topic);
  55.     // 当 获取不到分区信息 或者 当前分区号大于获取到的分区数量,则继续循环
  56.     } while (partitionsCount == null || (partition != null && partition >= partitionsCount));
  57.     producerMetrics.recordMetadataWait(time.nanoseconds() - nowNanos);
  58.     return new ClusterAndWaitTime(cluster, elapsed);
  59. }
复制代码
awaitUpdate() 会阻塞主线程,等待 sender 线程返回元数据相应后 (updateVersion() > lastVersion) 才会继续执行。
  1. public synchronized void awaitUpdate(final int lastVersion, final long timeoutMs) throws InterruptedException {
  2.     long currentTimeMs = time.milliseconds();
  3.     long deadlineMs = currentTimeMs + timeoutMs < 0 ? Long.MAX_VALUE : currentTimeMs + timeoutMs;
  4.     // **阻塞等待拉取元数据**
  5.     time.waitObject(this, () -> {
  6.         // Throw fatal exceptions, if there are any. Recoverable topic errors will be handled by the caller.
  7.         maybeThrowFatalException();
  8.         return updateVersion() > lastVersion || isClosed();
  9.     }, deadlineMs);
  10.     if (isClosed())
  11.         throw new KafkaException("Requested metadata update after close");
  12. }
复制代码
3. sender 线程中的元数据哀求

sender 调用了 KafkaClient 接口中的 poll() 方法来进行网络哀求。NetworkClient 实现了 KafkaClient 接口,其内部调用了 metadataUpdater.maybeUpdate() 来哀求元数据,以下为 poll() 方法的具体实现。
  1. @Override
  2. public List<ClientResponse> poll(long timeout, long now) {
  3.     ensureActive();
  4.     if (!abortedSends.isEmpty()) {
  5.         // If there are aborted sends because of unsupported version exceptions or disconnects,
  6.         // handle them immediately without waiting for Selector#poll.
  7.         List<ClientResponse> responses = new ArrayList<>();
  8.         handleAbortedSends(responses);
  9.         completeResponses(responses);
  10.         return responses;
  11.     }
  12.     // **调用 maybeUpdate() 拉取元数据**
  13.     long metadataTimeout = metadataUpdater.maybeUpdate(now);
  14.     long telemetryTimeout = telemetrySender != null ? telemetrySender.maybeUpdate(now) : Integer.MAX_VALUE;
  15.     try {
  16.         this.selector.poll(Utils.min(timeout, metadataTimeout, telemetryTimeout, defaultRequestTimeoutMs));
  17.     } catch (IOException e) {
  18.         log.error("Unexpected error during I/O", e);
  19.     }
  20.     // process completed actions
  21.     long updatedNow = this.time.milliseconds();
  22.     List<ClientResponse> responses = new ArrayList<>();
  23.     handleCompletedSends(responses, updatedNow);
  24.     handleCompletedReceives(responses, updatedNow);
  25.     handleDisconnections(responses, updatedNow);
  26.     handleConnections();
  27.     handleInitiateApiVersionRequests(updatedNow);
  28.     handleTimedOutConnections(responses, updatedNow);
  29.     handleTimedOutRequests(responses, updatedNow);
  30.     completeResponses(responses);
  31.     return responses;
  32. }
复制代码
maybeUpdate() 内部起首根据更新标记和前次更新元数据的时间间隔等信息计算是否需要再次更新元数据,如果需要更新,则选取一个较为空闲的节点发起元数据哀求。
  1. @Override
  2. public long maybeUpdate(long now) {
  3.     // 根据更新标记,过期时间和退避时间,计算出下一次要更新元数据的时间。
  4.     long timeToNextMetadataUpdate = metadata.timeToNextUpdate(now);
  5.     // 是否有正在进行的元数据请求,如果有,将 waitForMetadataFetch 设定为 defaultRequestTimeoutMs(默认30s)
  6.     long waitForMetadataFetch = hasFetchInProgress() ? defaultRequestTimeoutMs : 0;
  7.     // 计算元数据超时时间
  8.     long metadataTimeout = Math.max(timeToNextMetadataUpdate, waitForMetadataFetch);
  9.     if (metadataTimeout > 0) {
  10.         return metadataTimeout;
  11.     }
  12.     // Beware that the behavior of this method and the computation of timeouts for poll() are
  13.     // highly dependent on the behavior of leastLoadedNode.
  14.     LeastLoadedNode leastLoadedNode = leastLoadedNode(now);
  15.     // Rebootstrap if needed and configured.
  16.     if (metadataRecoveryStrategy == MetadataRecoveryStrategy.REBOOTSTRAP
  17.             && !leastLoadedNode.hasNodeAvailableOrConnectionReady()) {
  18.         metadata.rebootstrap();
  19.         leastLoadedNode = leastLoadedNode(now);
  20.     }
  21.     if (leastLoadedNode.node() == null) {
  22.         log.debug("Give up sending metadata request since no node is available");
  23.         return reconnectBackoffMs;
  24.     }
  25.     // **调用 private maybeUpdate(long now, Node node) 向选中的节点请求元数据**
  26.     return maybeUpdate(now, leastLoadedNode.node());
  27. }
  28. // **判断是否需要更新元数据的条件**
  29. // 计算下一次要更新元数据的时间
  30. public synchronized long timeToNextUpdate(long nowMs) {
  31.     // updateRequested() 检查是否标记了 needFullUpdate 或者 needPartialUpdate
  32.     // 如果已标记,则将过期时间 timeToExpire 设定为 0。
  33.     // 如果未标记,则根据 lastSuccessfulRefreshMs 和 metadataExpireMs 计算当前保存的元数据的过期时间 timeToExpire。
  34.     long timeToExpire = updateRequested() ? 0 : Math.max(this.lastSuccessfulRefreshMs + this.metadataExpireMs - nowMs, 0);
  35.     // timeToAllowUpdate() 根据退避时间计算允许下一次更新的时间
  36.     // 最终返回 过期时间 和 允许下一次更新的时间 中较大的值。
  37.     return Math.max(timeToExpire, timeToAllowUpdate(nowMs));
  38. }
  39. // 如果 needFullUpdate 或者 needPartialUpdate 为 true,则表示需要立即更新元数据
  40. public synchronized boolean updateRequested() {
  41.     return this.needFullUpdate || this.needPartialUpdate;
  42. }
  43. public synchronized long timeToAllowUpdate(long nowMs) {
  44.     // 计算重试的退避时间,在退避时间内不进行重试。
  45.     long backoffForAttempts = Math.max(this.lastRefreshMs +
  46.             this.refreshBackoff.backoff(this.attempts > 0 ? this.attempts - 1 : 0) - nowMs, 0);
  47.     // Periodic updates based on expiration resets the equivalent response count so exponential backoff is not used
  48.     if (Math.max(this.lastSuccessfulRefreshMs + this.metadataExpireMs - nowMs, 0) == 0) {
  49.         this.equivalentResponseCount = 0;
  50.     }
  51.     // 计算重复返回相同响应的退避时间
  52.     long backoffForEquivalentResponseCount = Math.max(this.lastRefreshMs +
  53.             (this.equivalentResponseCount > 0 ? this.refreshBackoff.backoff(this.equivalentResponseCount - 1) : 0) - nowMs, 0);
  54.     return Math.max(backoffForAttempts, backoffForEquivalentResponseCount);
  55. }
复制代码
private maybeUpdate(long now, Node node) 方法将元数据哀求封装成 ClientRequest (与生产者发送消息类似),并发送哀求。
  1. private long maybeUpdate(long now, Node node) {
  2.     String nodeConnectionId = node.idString();
  3.     if (canSendRequest(nodeConnectionId, now)) {
  4.         // **将元数据请求封装成 ClientRequest,并发送请求**
  5.         Metadata.MetadataRequestAndVersion requestAndVersion = metadata.newMetadataRequestAndVersion(now);
  6.         MetadataRequest.Builder metadataRequest = requestAndVersion.requestBuilder;
  7.         log.debug("Sending metadata request {} to node {}", metadataRequest, node);
  8.         sendInternalMetadataRequest(metadataRequest, nodeConnectionId, now);
  9.         inProgress = new InProgressData(requestAndVersion.requestVersion, requestAndVersion.isPartialUpdate);
  10.         return defaultRequestTimeoutMs;
  11.     }
  12.     // If there's any connection establishment underway, wait until it completes. This prevents
  13.     // the client from unnecessarily connecting to additional nodes while a previous connection
  14.     // attempt has not been completed.
  15.     if (isAnyNodeConnecting()) {
  16.         // Strictly the timeout we should return here is "connect timeout", but as we don't
  17.         // have such application level configuration, using reconnect backoff instead.
  18.         return reconnectBackoffMs;
  19.     }
  20.     if (connectionStates.canConnect(nodeConnectionId, now)) {
  21.         // We don't have a connection to this node right now, make one
  22.         log.debug("Initialize connection to node {} for sending metadata request", node);
  23.         initiateConnect(node, now);
  24.         return reconnectBackoffMs;
  25.     }
  26.     // connected, but can't send more OR connecting
  27.     // In either case, we just need to wait for a network event to let us know the selected
  28.     // connection might be usable again.
  29.     return Long.MAX_VALUE;
  30. }
复制代码
4. 处理元数据相应并更新元数据

在节点返回元数据相应之后,由 sender 线程 poll() 方法中的 handleCompletedReceives() 处理元数据。与生产者发送消息类似,起首将已经完成的哀求从 inFlightRequests 中移除,然后调用 handleSuccessfulResponse() 来处理元数据相应中的信息。
  1. private void handleCompletedReceives(List<ClientResponse> responses, long now) {
  2.     for (NetworkReceive receive : this.selector.completedReceives()) {
  3.         String source = receive.source();
  4.         // 将已经完成的请求从 inFlightRequests 中移除
  5.         InFlightRequest req = inFlightRequests.completeNext(source);
  6.         AbstractResponse response = parseResponse(receive.payload(), req.header);
  7.         if (throttleTimeSensor != null)
  8.             throttleTimeSensor.record(response.throttleTimeMs(), now);
  9.         if (log.isDebugEnabled()) {
  10.             log.debug("Received {} response from node {} for request with header {}: {}",
  11.                 req.header.apiKey(), req.destination, req.header, response);
  12.         }
  13.         maybeThrottle(response, req.header.apiVersion(), req.destination, now);
  14.         
  15.         // **如果是元数据响应,则调用  handleSuccessfulResponse() 来处理元数据响应中的信息**
  16.         if (req.isInternalRequest && response instanceof MetadataResponse)
  17.             metadataUpdater.handleSuccessfulResponse(req.header, now, (MetadataResponse) response);
  18.         
  19.     }
  20. }
复制代码
handleSuccessfulResponse() 中更新当前生存的元数据。
  1. @Override
  2. public void handleSuccessfulResponse(RequestHeader requestHeader, long now, MetadataResponse response) {
  3.    
  4.     // 更新元数据
  5.     this.metadata.update(inProgress.requestVersion, response, inProgress.isPartialUpdate, now);
  6. }
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

缠丝猫

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表