IT评测·应用市场-qidao123.com技术社区

标题: 揭秘 JDQ 限流架构：实时数据链路的多维动态带宽管控|京东零售技能实践 [打印本页]

作者: 半亩花草 时间: 2024-11-4 12:14
标题: 揭秘 JDQ 限流架构：实时数据链路的多维动态带宽管控|京东零售技能实践
1、背景

在数字化转型的浪潮席卷之下，大数据和云盘算技能已成为企业创新和发展的关键驱动力。尤其是以京东为代表的电商平台为例，其日常运营中持续生成海量数据，涵盖实时生意业务记载、点击曝光统计及用户行为轨迹等，这些数据对精准业务决策、深化用户体验优化等方面具有重要意义。然而，随着业务版图的快速扩张，特别是在 618、双 11 等年度大促盛宴中，数据流量呈现井喷式增长，给数据系统带来亘古未有的压力。
在此情境下，尽管 Apache Kafka 依附其卓越的高吞吐本领与低延迟特性，成为了企业处理实时数据流的首选，但面对当今降本增效的宏观趋势，企业急需在不增长过多资源负担的前提下，实现效能的最大化。特别是针对网络带宽这一宝贵资源，如何在海量数据与复杂业务场景交错的挑战中，实施更加精细、高效且智能的流量限速控制计谋，以确保消息中间件服务可以或许持续提供高可用性与高稳定性，成为了企业技能团队亟需攻克的难关。
JDQ 是基于 Apache 基金会开源的 Kafka 消息队列，深入打造的具备高吞吐、低延迟、高可靠性的实时流式消息中间件框架，可应用于数据管道、实时数仓、数据分析、等多种场景，是京东统一的实时数据总线。京东 JDQ 团队联合降本增效的行业趋势，针对开源 Kafka 在限流技能方面的不敷和局限性举行了深入研究，并在此基础上举行了创新性优化，开发出支持多维度、动态以及优先级等限流功能的 JDQ 带宽管控限流架构。本文将针对 Kafka 限流存在的题目，以及 JDQ 限流架构举行深入先容。

2、Kafka 限流

2.1 限流概述

在服务器日常运营中，限流是一种自我保护机制，用于避免突发和非常的数据流入流出量徒增对系统造成的打击。这种环境尤其常见于电商促销高峰期，此时某些特定的主题（topics）可能会履历流量激增，导致过多的占用 Broker 带宽资源和磁盘 I/O 资源。假如不加以控制，这不仅会影响其他客户端的正常读写操作，还会干扰集群内部的主从同步过程，给整个集群带来巨大的压力。当集群蒙受过大的压力，不仅可能导致服务过载，乃至可能引发系统瓦解。部门节点的故障雪崩，最终会波及到集群内所有业务的正常运行。因此，通过精细化的限流计谋，我们可以或许有效维护集群的稳定运作，保障业务的连续性和服务质量。

2.2 原生 Kafka 限流机制

Kafka 原生的限流机制是配额优先级限流机制，kafka 提供两个配额设置参数，三种粒度来举行限流管理：
两个设置参数：（可以动态调解）
（1）producer_byte_rate：生产者单位时间（每秒）内最高答应发送到单台 broker 的字节数。
（2）consumer_byte_rate：消费者单位时间（每秒）内最高答应从单台 broker 拉取的字节数。
三种粒度：
（1）user(认证方式)
（2）client.id(客户端标识)
（3）user + client.id
user 只能在集群中开启身份认证鉴权的环境下使用，在每个 broker 的 ProduceRequest 和 FetchRequest 中携带的 client/user 客户端身份标识，举行对应的限流。

Kafka 为 user、client-id 以及（user+client-id）这三种粒度定义配额设置，同时支持设定默认值，具体的配额可以覆盖默认配额，配额设置参数都是写入 zookeeper 的 /config 路径下，此中 user 以及（user+client-id）的设置是写入 /config/users 下，而 client-id 是直接写入 /config/clients 下，可以设置所有的 user 或者所有的 clients 默认配额，假如有指定 user 或者指定 clients 则会覆盖默认值。这些覆盖可以及时被服务监听，无需滚动重启整个集群也可以或许动态更新这些参数设置。
假如同时设置了多粒度的参数，限流优先级从高到低如下：

/config/users/<user>/clients/<client-id> 指定的 user+client-id的配置值那么优先级最高；/config/users/<user>/clients/<default> 指定user配置+clients的默认值/config/users/<user> 单独的user粒度，指定user/config/users/<default>/clients/<client-id> user的默认值+指定client-id/config/users/<default>/clients/<default> user的默认值+默认的client-id/config/users/<default> 单独的user的粒度，所有user的默认值/config/clients/<client-id> 单独的client-id粒度，指定client-id/config/clients/<default> 单独的client-id粒度，所有client的默认值，优先级最低

复制代码

复制代码
假如同时集群下存在多种配额设置参数，以优先级高的配额设置为准。
举一个例子解释限流优先级：假如指定一个 user，userA 设定他的 producer_byte_rate 为 10M/s，同时该集群上还为所有 user 的都设置了默认 producer_byte_rate 为 50M/s，以及为默认值下还设置了 client-id 粒度的配额；此时假如那 user 认证的生成程序向集群生产，生产速率的配额，应该以 user 指定为准，即为 10M/s。（第 3 级优先于第 5 级）

限流算法：
我们假设当前实际速率是 O，T 是预设的 user 限流速率值（可以根据实际环境设置），而 W 表示某一段时间范围，我们盼望在 W 时间内 O 可以或许下降到 T 以下（假如 O 本来就比 T 小，则什么都不用做），那么 broker 端就必要延缓等候一段时间后再相应请求。假如假设这段时间是 X，那么以下等式建立：
O * W = (W + X) * T
由此得出 X = (O - T) / T * W。这就是 Kafka 用于盘算限流等候时间的公式。当然在具体实现时，Kafka 提供了两个参数来共同盘算 W：W = quota.window.num * quota.window.size.seconds。前者表示取样的时间窗口个数，后者表示时间窗口大小。

超额处理：
消息队列自己的功能是削峰填谷，在有突发流量的时候，流量很容易凌驾配额。此时，机器层面一样平常是有本领处理流量的，假如直接拒绝流量，就会导致消息投递失败，客户端请求非常。所以，在限流后，Kafka 的处理方式是延时回包，通过加大单次请求的耗时，整体上降低集群的吞吐。因为正常状态下，客户端和服务端的毗连数是稳定的，假如提升单次处理请求的耗时，集群整体流量就会相应下降。增长的耗时时长就是使用上述的限流算法盘算的。

2.3 Kafka 限流举例

Kafka 限流是各个粒度对于 broker-topic 请求下的限流，依赖于这个 broker 上承担了多少个分区的 leader 分布，下述两个例子具体阐明：（以生产请求为例，特定 user 只设置了 user 的生产配额）
eg1：假设存在 topic1，有 3 个分区，每个分区有 2 个副本，具体的副本分区如下图，此中分区色块为粉红色的是 leader 节点

当 user1 对 topic1 授予了 producer 的权限，user1 的单机生产限流配额 producer_byte_rate 为 10M/s，那使用 user 通过认证的生产客户端可以往 topic1 里的每个分区生产数据，那么每个分区的峰值流量都为 10M/s；凌驾 10M/s 将会用触发限流机制，根据限流算法盘算出一个等候时长，来延缓下一个生产请求的发出。

eg2：假设存在 topic2，有 3 个分区，每个分区有 2 个副本，具体的副本分区如下图，此中分区色块为粉红色的是 leader 节点

当 user1 对 topic2 授予了 producer 的权限，user2 的单机生产限流配额 producer_byte_rate 为 10M/s，那使用 user 通过认证的生产客户端可以往 topic1 里的每个分区生产数据，那么分区 1，2 共享限流为 10M/s；分区 3 的限流为 10M/s；同样；当分区 1 和分区 2 累加的每秒生产的字节数凌驾了 10M/s，或者分区 3 每秒生产的字节数凌驾了 10M/s，触发限流机制。

2.4 Kafka 限流机制的局限性分析

2.4.1 Broker-Topic 维度限流的固有缺陷：节点故障 leader 切换引发的速率颠簸

从 2.3 的两个例子中，不难发现，假如 Kafka 集群的某个 Topic Leader 在发生故障切换时，会对生产与消费速率产生的间接影响，暴露了现有限流机制的一个短板。在标准设置下，生产者消费者的吞吐量分配与分区 Leader 的物理分布密切相关。
具体而言，假设一 Topic 拥有 m 个分区，初始分布于 n 个活泼 Broker 之上，每个 Broker 承载 m/n 个分区的 Leader。消费者对于该 Topic 的限速配额设定为 s MB/s，理论上可实现总吞吐量 s*n MB/s。然而，一旦某 Broker 遭遇故障，Leader 角色将重新分配至剩余 n-1 个 Broker，尽管整体分区数保持不变，但限速原则却按 s*(n-1) MB/s 重新盘算，导致吞吐量骤减。这一现象表示 Kafka 限流算法在适应动态故障场景时的脆弱性，用户需蒙受非预期的消费速率下降及潜伏的数据积存风险。

2.4.2 缺乏单机限流机制与实时弹性调治本领

根据 2.2 所述，Kafka 现行限流机制聚焦于 User-Client 层面，忽视了单机 Broker 的容量限制，从而在面对这个 broker 下的 user 的生产/消费的总速率凌驾单机硬件限制的理论带宽上限的环境时，只能手动向下调解平台上与 broker 有关的生产者，消费者的配额参数，而 Kafka 集群自己并不会做出什么相应的限流举动，任由过载状态持续影响所有业务，直至触发网络拥塞或数据丢失。同时，Kafka 限流机制高度依赖于预先设定的业务系统限流配额，无法依据实时网络状态或 Broker 负载动态调解对应的生产消费配额，削弱了系统的弹性和相应性。

2.4.3 资源分配非最优与业务优先级处理缺失

当前限流技能在主动化处理业务重要性等级方面存在短板，未能充分考虑到差别业务场景的独特性。特别是在资源竞争猛烈的环境中，该技能未能针对差别业务的关键程度做出有效区分。当达到限流阈值时，所有业务均遭受无差别的限制，忽视了高优先级服务的特殊需求。这种粗放式的处理方式，不仅无法满足特定业务场景的个性化需求，还可能阻塞关键业务流程或降低用户体验，进而引发用户的不满和投诉。在当前强调本钱控制和效率提升的大环境下，迫切必要一种办理方案，可以或许在资源紧张时优先保障高优先级业务，通不对峰生产/消费模式，实现资源的合理设置和高效使用，以实现最大代价。

综上所述，开源 Kafka 在限流技能方面存在一些不敷之处，包括但不限于：
•维度单一：限流计谋过于粗放，未能覆盖分区级别或单 Broker 层级的精细化控制；
•缺乏实时弹性：依赖预设限流配额，无法根据实时业务环境举行动态主动调解。
•未区分业务优先级：未能根据业务的重要性和紧急性举行差异化处理，影响了流量资源的最优设置。
上述分析为 Kafka 限流机制的改进指明了方向，促使我们探索更为先辈且灵活的限流计谋，以应对复杂多变的生产环境。

3、JDQ 限流核心架构

3.1 JDQ 限流模型

此中：分区色块为粉红色的是 leader 节点，“X”为故障节点

3.2 多维度的精细化限流粒度

如上述限流模型所示，在 Kafka 的基础上，JDQ 平台支持更精细化粒度限流，即分区级别限流，可以让生产消费的吞吐量都不受故障节点影响而降低。
核心逻辑为：在 Controller 发起的元数据更新请求中，记载下来 Broker 上每个 Topic 对应的 leader 数量，在盘算消费等候时长时，会让消费限速配额 consumer_byte_rate * 该 Topic 在分区 Leader 数量，从而实现不论 Topic 的分区 Leader 分布在几台机器上，消费者或者生产者的总速率都能保持不变
具体而言，假设一 Topic 拥有 m 个分区，初始分布于 n 个活泼 Broker 之上，每个 Broker 承载 m/n 个分区的 Leader。生产者/消费者对于该 Topic 的限速配额设定为 s MB/s，理论上可实现总吞吐量 s*n MB/s。然而，一旦某 Broker 遭遇故障，Leader 角色将重新分配至剩余 n-1 个 Broker，但是整体分区数保持不变，原限流机制的理论总吞吐为 s*(n-1) MB/s, 但改造后的限流原则在节点故障前后均用 s*m MB/s 盘算，使得速率恒定为配额*分区数，进而办理机器故障是对生产/消费的吞吐量的影响。

3.3 单机限流和分级动态弹性限流

其图中，L1、L2、L3 的限流逻辑为，根据为每个等级下分配的被分级限流时差别的带宽配额（可动态改配），以及分区粒度的限流算法举行盘算等候时间，使对应等级的业务举行限流；
这一架构的核心在于引入单机带宽使用阈值，以及重要性等级机制（在分区限流的基础上），为差别等级(L0,L1,L2,L3)的生产者/消费者（即业务系统）分配差异化的限流带宽配额。这些参数可以支持动态设置地传入 Kafka 集群服务端，使得集群可以或许实时根据单机带宽使用环境，主动、弹性地调解对各个重要性等级业务系统的限流与规复计谋。具体来说，当单机带宽使用凌驾预设阈值时，Kafka 集群将依据重要性等级从低到高，分级实施限流措施，确保高重要性业务系统得到优先保障。反之，当带宽使用回落到安全范围内时，系统将主动规复限流，保障业务系统的顺畅运行。
此架构可以或许有效地应对带宽使用的潮汐变化，实现对差别重要性等级业务系统的精准限流与规复，实现带宽资源错峰使用的智能化管理，确保重要性较高的业务系统可以或许得到优先保障，最大程度的淘汰资源有限的环境下，因带宽过载而可能造成的丧失。别的，还显著降低现有技能中人为参与调解业务系统流量配额所泯灭的人力本钱，避免了人为误操作的风险。同时，其可设置参数的高度可扩展性和灵活性使得用户可以根据实际业务需求和网络状态，动态调解重要性等级、单机带宽过载阈值以及限流配额等参数，确保该限流机制在差别环境和场景下都能体现出卓越的性能和适应性。这一限流架构不仅提升了 Kafka 集群的带宽管理效率，发挥有限资源的最大代价，也增强了业务系统的稳定性和可靠性。

4、实际应用效果

具体实例 1：（验证分区限流）三台机器分别为同一个 topic 的三个分区的 leader，经过我们分区粒度的限流后，就算存在有一台机器故障时（停掉服务模拟故障），切换 leader 之后，消费者的总速率应该为 30M/s
原限流逻辑：

改造分区限流逻辑：

具体实例 2：（验证单机和分级限流）以消费请求为例，JDQ 的限流计谋是如何在大促洪峰流量出现时，保证资源优先分配给高等级的任务呢？以消费为例，当机器单机流出配额带宽为 50M/s 时 (单机配额较低，模拟数据洪峰达到机器带宽上限)，对应的分级限流的差异化流出带宽配额为 L1-10M/s、L2-5M/s、L3-1M/s。启动 L0、 L1、 L2、 L3 四个差别的等级业务系统的消费程序，正常的消费时分区速率在 50M/s 以上，触发逐级限流时的测试结果如下图，L3 立即限流至 1M/s，L2 隔段时间限流至 5M/s，L1 再隔段限流至 10M/s，L0 不限流，按照等级由低到高逐级举行限流，对重要性等级高的系统优先分配带宽，优化了带宽资源分配，错峰消费。

具体实例 3：（验证弹性限流）在实例 2 的基础上，将机器单机流出配额带宽动态修改至 1000（模拟数据洪峰已过），可以看到所有的就正常积极消费，不被限制，符合弹性根据潮汐值举行限流

5、将来限流优化方向

在将来的 Kafka 限流技能研发方向上，我们将筹划针对以下几个方面举行优化和创新：
•多情势多粒度的限流粒度：将来优化将着眼于更多情势的限流，比如根据 QPS 限流，更细粒度的限流，如消息类型的限流，从而更好地满足多样化的业务需求和资源分配计谋。
•基于容器化的带宽弹性伸缩：进一步探索 JDQ 与容器技能的深度融合，实现集群的按需弹性伸缩。用户限速带宽可以根据平时的实际使用率主动调解，确保资源的高效使用与本钱控制，同时提升系统的整体相应本领和弹性。
•智能化限流规划与研发：为了进一步降低运维复杂度，提升系统可靠性，将来将加大投入于智能化限流方案的研发，实现限流计谋的主动优化，淘汰人为干预，提升运维效率。
综上所述，JDQ 的将来限流优化将精密围绕用户需求与技能前沿，致力于打造一个既能应对高并发挑战，又能在本钱控制，资源管理以及运维层面实现智能化、主动化的实时数据处理平台。

6、结语

我们来自实时平台研发部 JDQ 团队，我们将继承致力于 Kafka 限流技能的优化与创新，探索更多前沿技能，以进一步提升 Kafka 的稳定性和效率。
同时，我们也将加强与业界的交流与互助，共同推动 Kafka 技能的发展与应用，为大数据期间的数字化转型贡献更多力量。

本文作者：京东 JDQ 团队，饶璐、胡晓花、钟厚、卢杰

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/)