Kafka为啥比RocketMQ快

锦通  金牌会员 | 2024-12-28 13:12:01 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 826|帖子 826|积分 2478

Kafka为啥比RocketMQ快

总结来说,Kafka使用使用体系内核中sendfile方法实现,相比RocketMQ使用使用体系内核中mmap方法性能更优,Kafka已更少的拷贝次数以及体系内核切换次数来提高性能。但mmap可以返回数据详细内容,应用层能获取消息内容举行一些逻辑处理,达到RocketMQ一些功能特点。


RocketMQ 的架构实在参考了 kafka 的计划头脑,同时又在 kafka 的基础上做了一些调整。看起来,RocketMQ 好像各方面都比 kafka 更能打。
但 kafka 却一直没被淘汰,说明 RocketMQ 一定是有着不如 kafka 的地方。是啥呢? 性能,严格来说是吞吐量。阿里中间件团队对它们做过压测,同样条件下,kafka 比 RocketMQ 快 50%左右。但即使如许,RocketMQ 依然能每秒处理 10w 量级的数据,仍旧非常能打。你不能说 RocketMQ 弱,只能说 Kafka 性能太强了。

不过这就很奇怪了,为什么 RocketMQ 参考了 kafka 的架构,却不能跟 kafka 保持一样的性能呢?在答复这个问题之前,我们来聊下什么是零拷贝

零拷贝是什么

我们知道,消息队列的消息为了防止历程崩溃后丢失,一般不会放内存里,而是放磁盘上。那么问题就来了,消息从消息队列的磁盘,发送到消费者,过程是怎么样的呢?
消息的发送过程

简单来说,需要将磁盘中信息发送到服务上,理论上履历下面四个阶段:

  • 磁盘数据从装备拷贝到内核空间的缓冲区
  • 再从内核空间的缓冲区拷贝到用户空间
  • 数据从用户空间拷贝到 socket 发送缓冲区
  • 再从 socket 发送缓冲区拷贝到网卡
这里的零拷贝为以下两种:

  • 用户空间到内核空间这个过程不需要拷贝
  • 零 CPU拷贝

使用体系分为用户空间内核空间。步伐处于用户空间,而磁盘属于硬件,使用体系本质上是步伐和硬件装备的一个中间层。步伐需要通过使用体系去调用硬件本领。


假如用户想要将数据从磁盘发送到网络。那么就会发生下面这几件事:步伐会发起体系调用read(),实验读取磁盘数据,


  • • 磁盘数据从装备拷贝到内核空间的缓冲区。
  • • 再从内核空间的缓冲区拷贝到用户空间。
步伐再发起体系调用write(),将读到的数据发到网络:


  • • 数据从用户空间拷贝到 socket 发送缓冲区
  • • 再从 socket 发送缓冲区拷贝到网卡。
最终数据就会经过网络到达消费者。


整个过程,本机内发生了 2 次体系调用,对应 4 次用户空间和内核空间的切换,以及 4 次数据拷贝

一顿使用猛如虎,效果就是同样一份数据来回拷贝。有没有办法优化呢?有,它就是零拷贝技能,常见的方案有两种,分别是 mmap 和 sendfile。我们来看下它们是什么。
mmap 是什么

mmap 是使用体系内核提供的一个方法,可以将内核空间的缓冲区映射到用户空间。


用了它,整个发送流程就有了一些变化。步伐发起体系调用mmap(),实验读取磁盘数据,详细情况如下:


  • • 磁盘数据从装备拷贝到内核空间的缓冲区。
  • • 内核空间的缓冲区映射到用户空间,这里不需要拷贝。
步伐再发起体系调用write(),将读到的数据发到网络:


  • • 数据从内核空间缓冲区拷贝到 socket 发送缓冲区。
  • • 再从 socket 发送缓冲区拷贝到网卡。


整个过程,发生了 2 次体系调用,对应 4 次用户空间和内核空间的切换,以及 3 次数据拷贝,对比之前,省下一次内核空间到用户空间的拷贝。



看到这里大家估计也蒙了,不是说零拷贝吗?怎么另有 3 次拷贝。mmap 作为一种零拷贝技能,指的是用户空间到内核空间这个过程不需要拷贝,而不是指数据从磁盘到发送到网卡这个过程零拷贝。


确实省了一点,但不多。有没有更彻底的零拷贝?有,用 sendfile.

sendfile 是什么

sendfile,也是内核提供的一个方法,从名字可以看出,就是用来发送文件数据的。步伐发起体系调用sendfile(),内核会实验读取磁盘数据然后发送,详细情况如下:


  • • 磁盘数据从装备拷贝到内核空间的缓冲区。
  • • 内核空间缓冲区里的数据可以直接拷贝到网卡。


整个过程,发生了 1 次体系调用,对应 2 次用户空间和内核空间的切换,以及 2 次数据拷贝。这时候问题许多的小明就有意见了,说好的拷贝怎么另有 2 次拷贝?


实在,这里的零拷贝指的是零 CPU拷贝。也就是说 sendfile 场景下,需要的两次拷贝,都不是 CPU 直接到场的拷贝,而是其他硬件装备技能做的拷贝,不延长我们 CPU 跑步伐。
kafka 为什么性能比 RocketMQ 好

聊完两种零拷贝技能,我们回过头来看下 kafka 为什么性能比 RocketMQ 好。这是由于 RocketMQ 使用的是 mmap 零拷贝技能,而 kafka 使用的是 sendfile。kafka 以更少的拷贝次数以及体系内核切换次数,得到了更高的性能。但问题又来了,为什么 RocketMQ 不使用 sendfile?参考 kafka 抄个作业也不难啊?我们来看下 sendfile 函数长啥样。
  1.  ssize_t sendfile(int out_fd, int in_fd, off_t* offset, size_t count);
  2.  // num = sendfile(xxx);
复制代码
再来看下 mmap 函数长啥样。
  1.  void *mmap(void *addr, size_t length, int prot, int flags,
  2.             int fd, off_t offset);
  3.  // buf = mmap(xxx)
复制代码
注释里写的是两个函数的用法,mmap 返回的是数据的详细内容,应用层能获取到消息内容并举行一些逻辑处理。


而 sendfile 返回的则是发送乐成了几个字节数详细发了什么内容,应用层根本不知道


而 RocketMQ 的一些功能,却需要了解详细这个消息内容,方便二次投递等,好比将消费失败的消息重新投递到死信队列中,假如 RocketMQ 使用 sendfile,那根本没机会获取到消息内容长什么样子,也就没办法实现一些好用的功能了。


而 kafka 却没有这些功能特性,追求极致性能,恰好可以使用 sendfile。
除了零拷贝以外,kafka 高性能的原因另有许多,好比什么批处理,数据压缩啥的,但那些优化本领 rocketMQ 也都能鉴戒一波,唯独这个零拷贝,那是毫无办法。


以是还是那句话,没有一种架构是完美的,一种架构通常用于适配某些场景,你很难做到既要又要还要。当场景不同,我们就需要做一些定制化改造,通过捐躯一部分本领去换取另一部分本领。做架构,做到末了都是在做折中。是不是感觉升华了。
kafka 和 RocketMQ 怎么选?

这时候大家估计还是想知道 kafka 和 RocketMQ 到底该怎么选,用哪个。官方点的答复是"这个要看场景的"。说了即是没说。这不是我的风格。我的尺度只有一个,假如是大数据场景,好比你能频仍听到 spark,flink 这些关键词的时候,那就用 kafka。除此之外,假如公司组件支持,只管用 RocketMQ。
现在大家通了吗?
总结



  • • RocketMQ 和 kafka 相比,在架构上做了减法,在功能上做了加法
  • • 跟 kafka 的架构相比,RocketMQ 简化了调和节点和分区以及备份模型。同时增强了消息过滤、消息回溯和事务本领,参加了延迟队列,死信队列等新特性。
  • • 凡事皆有代价,RocketMQ 捐躯了一部分性能,换取了比 kafka 更强盛的功能特性。

鉴戒:小白debug公众号,B站
发起:配合B站小白debug视频食用

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

锦通

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表