曹旭辉 发表于 2024-7-23 04:53:03

RocketMQ Copilot GA 版本全新发布!

RocketMQ Copilot 1.0.0 颠末一段时间的开发迭代,终于和大家见面了!1.0.0 相比力于之前提供了更多新特性,同时也在之前版本的底子上做了不少功能加强,是 RocketMQ Copilot 的第一个 GA 版本。在新版本中,RocketMQ Copilot 提供了全景概览,容量规划等新特性,并针对 SLO,风险和容量规划提供了多渠道告警功能。对自助诊断也进行了功能强化。同时也修复了上个版本中的若干问题,为用户带来更好的体验。接待大家点击 RocketMQ Copilot Playground进行快速体验!
利用以下命令一键安装 RocketMQ Copilot:
bash -c "$(curl -sSL https://download.automq.com/automq-copilot-for-rocketmq/start.sh)" 01 基于汗青数据的自助诊断

在之前的版本中,RocketMQ Copilot 基于常见的消息未消耗,消息堆积和一些通用问题提供了自助诊断模板。不过这些模版中诊断项的绝大部分都是基于即时数据来进行诊断的,然而很多用户等到在自助诊断页面提交问题时,现场往往是得不到保留的。问题发生时刻的汗青数据如果没有持久化,对于查询其时问题发生的根因也是不利的。在 1.0.0 版本中,RocketMQ Copilot 会定时地对录入的集群保存与诊断项有关的数据。譬如:对于路由不划一这个问题来说,RocketMQ Copilot 会将集群中的 Topic 针对每一个 Nameserver 节点的路由信息都定时保存下来。用户在提交问题诊断模板之后,会自动将用户提交模板中的问题发生时间范围与定时保存结果中的时间点进行匹配,如果在指定时间段出现了异常数据结果则会提示用户该检查项不通过。
https://img-blog.csdnimg.cn/41ea54ec2cef4990bac88288404765d8.png
分析消耗者堆积汗青数据不通过
如上图所示,RocketMQ Copilot 对于局部消耗者堆积这个检查项,会定时保存检查结果。当用户提交的时间段掷中异常记录时,则会表现该检查项不通过。基于汗青数据的自助诊断功能保留了用户的问题现场,能为用户问题的排查带来更多指导意义。
02 全景概览

RocketMQ Copilot 1.0.0 中对录入的集群新增了全景概览功能,为 RocketMQ 运维人员提供一个全局的可视化数据大盘。全景概览可以多维度满意差别应用场景下用户的必要。
快速梳理巡检数据,感知集群风险
首先对于之前版本中就已经有的风险和 SLO 功能,在概览页也做出了集群级别的集中展示并支持一键跳转。其次对集群中的底子元信息数目也做出了集中展示。
https://img-blog.csdnimg.cn/af772a2b54c84038870ba6e57641be18.png
风险和 SLO 概览
为重大业务规划和决策提供业务特征数据
RocketMQ Copilot 中集中梳理了当前集群的流量特征,比如像差别消息类型的分布,消息巨细的分布等等。
https://img-blog.csdnimg.cn/69b8e0d598854cde8608f3e1d8c67fb2.png
提供集群内部流量特征
在大规模 RocketMQ 集群中,次序消息和事件消息很多时间是单独运维的,分析出当前集群中差别类型消息的数目可以为之后的运维提供强有力的指导。消息巨细的分布也是很紧张的指标,在同样的收发 TPS 下,更大的消息会给集群造成更大的压力。提交明确的消息巨细分布图可以为集群规划提供有用建议。为告急问题的排查缩小范围除此之外,全景概览页也对一些紧张的业务指标进行了倒排展示。方便用户快速找到有问题的 Broker,Topic 和 ConsumerGroup 等资源。
https://img-blog.csdnimg.cn/f8e239e1f0f84eba93a2076b254ea404.png
全景概览页部分图例
03 多维度容量规划

在与 RocketMQ 浩繁的自建用户进行交流之后,我们发现对集群进行容量规划始终是一个很困难的话题。随着业务的发展,RocketMQ 集群往往先在 CPU、内存、磁盘和网络带宽这些系统指标中表现出瓶颈,具体再反映到 RocketMQ 业务上,这些系统指标上的瓶颈往往由消息的收发 TPS,对存储空间的磁盘性能的占用决定。
RocketMQ Copilot 1.0.0 版本中,允许用户针对生产 TPS,消耗 TPS,存储空间和磁盘 IOUtil 创建容量规划项,用户必要对每个容量规划项设置上限和预警水位。
https://img-blog.csdnimg.cn/c6c9efb5de8f4f059491372e90c72678.png
支持对每个容量规划项设置上线和预警水位
容量规划模块会存储每个规划项的汗青数据,并针对这些汗青数据进行及时猜测。在设置告警的情况下,容量规划模块会针对及时猜测的数据,提前 7 天进行预警,提醒用户进行扩容处理。一些特别情况下,用户必要进行暂时业务规划,这部分业务指标是很难猜测的。容量规划模块也提供手动增加规划的方式资助用户调解猜测曲线。
https://img-blog.csdnimg.cn/12083328c4c94dca942266d9a2b2de67.png
支持新增暂时大促
04 全渠道告警

RocketMQ Copilot 此次还提供了对企业微信/钉钉/飞书等常用办公 IM 渠道的告警功能,并支持用户利用自定义 HTTP 参数添加 Webhook 地点。
https://img-blog.csdnimg.cn/379264fa9b3c426fbf9f618fee0a4942.png
支持创建多渠道 Webhook 触达客户对 SLO 不达标,出现新风险和容量猜测超过预警水位的情况,会通过配置好的报警渠道关照到客户。
https://img-blog.csdnimg.cn/a68160155ced44b597a30dc88ad5e61a.png
新风险出现微信渠道关照卡片
AutoMQ 团队凝结了十年的生产运维经验,打造出了 RocketMQ Copilot 如许一款产品。无侵入,轻量化的输出方式,让用户以最简朴的方式监测 RocketMQ 集群,快速发现生产问题,并针对问题提供了一系列最佳实践。接待大家点击 RocketMQ Copilot Playground来体验并利用这款匠心之作,同时等待大家为RocketMQ Copilot 建言献策。我们也会扎根社区,不停吸取来自开发者的需求和建议,一起建设更好的 RocketMQ。同时,也诚邀各位开源爱好者持续关注我们社区,点亮小星星
页: [1]
查看完整版本: RocketMQ Copilot GA 版本全新发布!