# Kafka_深入探秘者(10):kafka 监控

打印 上一主题 下一主题

主题 565|帖子 565|积分 1695

Kafka_深入探秘者(10):kafka 监控

一、kafka JMX

1、JMX :全称 Java Managent Extension



  • 在实现 Kafka 监控系统的过程中,起首我们要知道监控的数据从哪来,Kafka 自身提供的监控指标(包括 broker 和主题的指标,集群层面的指标通过各个 broker 的指标累加来获取)都可以通过 JMX(Java Managent Extension) 来进行获取。
  • 在使用 JMX 之前起首要确保 Kafka 开启了 JMX 的功能(默认是关闭的)。
  • kafka 官网中 http://kafka.apache.org/082/documentation.html#monitoring 解释。
2、添加 JMX_PORT=9999 参数,启动 kafka, 确保 kafka 开启了 Jmx 监控

  1. # 切换到 kafka-01 安装目录:
  2. cd /usr/local/kafka/kafka-01/
  3. # 添加 JMX_PORT=9999 参数,启动 kafka, 确保 kafka 开启了 Jmx 监控
  4. JMX PORT-9999 bin/kafka-server-start.sh config/server.properties
  5. # 切换到 kafka-02 安装目录:
  6. cd /usr/local/kafka/kafka-02/
  7. # 添加 JMX_PORT=9988 参数,启动 kafka, 确保 kafka 开启了 Jmx 监控
  8. JMX PORT-9999 bin/kafka-server-start.sh config/server.properties
  9. # 切换到 kafka-03 安装目录:
  10. cd /usr/local/kafka/kafka-03/
  11. # 添加 JMX_PORT=9977 参数,启动 kafka, 确保 kafka 开启了 Jmx 监控
  12. JMX PORT-9999 bin/kafka-server-start.sh config/server.properties
复制代码
3、打开 ZooInspector 可视化工具,进行查看监控。

开启 JMX 之后会在 Zookeeper 的 /brokers/ids/ 节点中有对应的出现 (jmx_port字段对应的值)。

二、kafka 编程获取指标

1、jConsole 工具的使用

在开启 JMX 之后最简单的监控指标的方式就是使用 JDK 套件下面的 JConsole 工具,可以通过 jconsole 毗连 service:jmx:rmi:///jndi/rmi://localhost:9999/jmxrmi 大概 localhost:9999 来查看相应的数据值。




2、在 kafka_learn 工程模块中,创建 kafka 通过编程获取 kafka 监控指标 类 JmxConnection.java

  1. /**
  2. *  kafka_learn\src\main\java\djh\it\kafka\learn\chapter10\JmxConnection.java
  3. *
  4. *  2024-6-27 创建 kafka 通过编程获取 kafka 监控指标 类 JmxConnection.java
  5. */
  6. package djh.it.kafka.learn.chapter10;
  7. import javax.management.MBeanServerConnection;
  8. import javax.management.MalformedObjectNameException;
  9. import javax.management.ObjectName;
  10. import javax.management.remote.JMXConnector;
  11. import javax.management.remote.JMXConnectorFactory;
  12. import javax.management.remote.JMXServiceURL;
  13. public class JmxConnection {
  14.     private String ipAndPort;
  15.     private String jmxURL;
  16.     MBeanServerConnection conn = null;
  17.     public JmxConnection(String ipAndPort){
  18.         this.ipAndPort = ipAndPort;
  19.     }
  20.     public boolean init(){
  21.         jmxURL = "service:jmx:rmi:///jndi/rmi://" + ipAndPort + "/jmxrmi";
  22.         try {
  23.             JMXServiceURL serviceURL = new JMXServiceURL(jmxURL);
  24.             JMXConnector connector = JMXConnectorFactory.connect(serviceURL,null);
  25.             conn = connector.getMBeanServerConnection();
  26.             if(conn == null){
  27.                 return false;
  28.             }
  29.         }catch (Exception e){
  30.             e.printStackTrace();
  31.         }
  32.         return true;
  33.     }
  34.     public double getMsgInPerSec(){
  35.         String objectName = "kafka.server:type=BrokerTopicMetrics, name=MessagesInPerSec";
  36.         try {
  37.             ObjectName objectName1 = new ObjectName(objectName);
  38.             Object val = conn.getAttribute(objectName1, "OneMinuteRate");
  39.             if(val != null){
  40.                 return (double)(Double) val;
  41.             }
  42.         }catch (MalformedObjectNameException e){
  43.             e.printStackTrace();
  44.         }
  45.         return 0.0;
  46.     }
  47.     public static void main(String[] args) {
  48.         //你的虚拟机IP地址
  49.         JmxConnection jmxConnection = new JmxConnection("172.18.30.110:9999");
  50.         jmxConnection.init();
  51.         System.out.println(jmxConnection.getMsgInPerSec());
  52.     }
  53. }
复制代码
3、启动 JmxConnection.java 类,进行测试。

三、kafka 监控指标了解

1、kafka 当中关键监控指标: broker 监控指标

1.1 活跃控制器

该指标表现 broker 是否就是当前的集群控制器,其值可以是0或!。如果是1,表现 broker 就是当前的控制器任何时间,都应该只有一个 broker 是控制器,而且这个 broker 必须一直是集群控制器。如果出现了两个控制器,阐明有一个本该退出的控制器线程被阻 塞了,这会导致管理任务无陆正常执行,好比移动分区。为了解决这个问题,需要将这两 个 broker 重启,而且不能通过正常的方式重启,因为此时它们无陆被正常关闭。
  1. # 值区间:0或1
  2. kafka.controller:type=KafkaController,name=ActiveControllerCount
复制代码
1.2 请求处理器空闲率

Kafka 使用了两个线程地来处理客户端的请求:网络处理器线程池和请求处理器线程池。 网络处理器线程地负责通过网络读入和写出数据。这里没有太多的工作要做,也就是说,不用太过担心这些线程会出现问题。请求处理器线程地负责处理来自客户端的请求,包括从磁盘读取消息和往磁盘写入消息。因此,broker 负载的增长对这个线程池有很大的影响。
  1. kafka.server:type=KafkaRequestHandlerPool,name=RequestHandlerAvgIdlePercent
复制代码
1.3 主题流入字节

主题流入字节速率使用 bis 来表现,在对 broker 吸收的生产者客户端悄息流量进行度量时,这个度量指标很有用。该指标可以用于确定何时该对集群进行扩展或开展其他与规模增长 相关的工作。它也可以用于评估一个 broker 是否比集群里的其他 broker 吸收了更多的流 量,如果出现了这种情况,就需要对分区进行再均衡。
  1. kafka.server:type-BrokerTopicMetrics,name-BytesInPerSec
复制代码


  • RateUni.t这是速率的时间段,在这里是“秒\这两个属性表明,速率是通过 bis 来表现的,不管它的值是基于多长的时间段算出的平均 值。速率另有其他 4个不同粒度的属性。
  • OneMi.nuteRate 前1分钟的平均值。
  • Fi.ve问i.nuteRate 前5分钟的平均值。
  • Fi.fteenMi.nuteRate 前 15 分钟的平均值。
  • MeanRate 从 broker启动到如今为止的平均值。
1.4 主题流出字节

主题流出字节速率与流入字节速率类似,是另一个与规模增长有关的度量指标。流出字节速 率表现的是悄费者从broker读取消,息的速率。流出速率与流入速率的伸缩方式是不一样的,这要归功于 Kafka 对多消费者客户端的支持。
  1. kafka.server:type=BrokerTopicMetrics,name=BytesOutPersec
复制代码
1.5 主题流入的消息

之前介绍的字节速率以字节的方式来表现 broker 的流量, 而消息速率则以每秒天生消息个 数的方式来表现流量,而且不考虑消息的大小。这也是一个很有用的生产者流量增长规模 度量指标。它也可以与字节速率一起用于
1.6分区数量

broker 的分区数量一般不会经常发生改变,它是指分配给 broker 的分区总数。它包括 broker 的每一个分区副本,不管是首领照旧跟随者
  1. kafka.server:type.ReplicaManager,name PartitionCount
复制代码
1.7 首领数量

该度量指标表现 broker 拥有的首领分区数量。与 broker 的其他度量一样,该度量指标也应 该在整个集群的 broker 上保持均等。我们需要对该指析|进行周期性地检查,井适时地发出 告警,即使在副本的数量和大小看起来都很完美的时间,它仍然可以大概表现出集群的不均衡 问题。因为 broker 有大概出于各种原因释放掉一个分区的首领身份,好比 Zookeeper 会话 逾期,而在会话规复之后,这个分区并不会自动拿回顾领身份(除非启用了自动首领再均 衡功能)。在这些情况下,该度量指标会表现较少的首领分区数,大概直接表现为零。这 个时间需要运行一个默认的副本推举,重新均衡集群的首领。
  1. kafka.server:type=ReplicaManager,name-LeaderCount
复制代码
2、kafka 主题分区监控指标

broker 的度量指标描述了 broker 的一般举动,除此之外,另有许多主题实例和分区实例的度盘指标。
2.1 主题实例的度量指标

主题实例的度量指标与之前描述的 broker 度量指标非常相似。事实上,它们之间唯一的区 别在于这里指定了主题名称,也就是说,这些度量指标属于某个指定的主题。主题实例的 度量指标数量取决于集群主题的数量,而且用户极有大概不会监控这些度量指标或设置告 警。它们一般提供给客户端使用,客户端依此评估它们对 Kafka 的使用情况,并进行问题 调试。
2.2 分区实例的度量指标

分区实例的度量指标不如主题实例的度量指标那样有用。别的,它们的数量会更加庞大,因为几百个主题就大概包含数千个分区。不过不管怎样,在某些情况下,它们照旧有一定用处的。 Partition size 度量指标表现分区当前在磁盘上保留的数据量。
如果把它们组合在一起,就可以表现单个主题保留的数据量,作为客户端配额的依据。同一 个主题的两个不同分区之间的数据量如果存在差异,阐明消,息并没有按照生产消息的键 进行均句分布。 LOgsegment count 指标表现生存在磁盘上的日记片断的文件数量,可以与 Partition size 指标结合起来,用于跟踪资糠的使用情况。
3、生产者监控指标

新版本 Kafka 生产者客户端的度量指标经过调解变得更加简洁,只用了少量的 MBean。相 反,之前版本的客户端(不再受支持的版本)使用了大量的 MBean,而且度量指标包含了 大量的细节(提供了大量的百分位和各种移动平均数)。这些度量指标提供了很大的覆盖 面,但这样会让跟踪异常情况变得更加困难。生产者度盐指标的 MBean 名字里都包含了生产者的客户端ID。在下面的示例里,客户端 ID 使用 CLIENTID 表现,brokerID 使用 BROKERID 表现,主题的名字使用 TOPICNAME 表现,
  1. kafka.server:type=BrokerTopicMetrics,name=ProduceMessageConversionsPerSec
  2. kafka.server:type=BrokerTopicMetrics,name=TotalProduceRequestsPerSec
复制代码
4、消费者监控指标

与新版本的生产者客户端类似,新版本的消费者客户端将大量的度量指标属性塞进了少数 的几个 MBean 里
  1. kafka. consumer:type=consumer-metrics,client-id=CLIENTID
复制代码
kafka. consumer:type=consumer-metrics,client-id-CLIENTIDkafka, consumer:type=consumer-fetch-manager-metrics,client-id-CLIENTID
5、集群消息监控系统: Kafka Eagle

在开发工作当中,消费 Kafka 集群中的消息时,数据的变动是我们所关心的,当业务并不复杂的前提下,我们可以使用 Kafka 提供的下令工具,配合 Zookeeper 客户端工具,可以很方便的完成我们的工作。随着业务的复杂化,Group 和 Topic 的增加,此时我们使用 Kafka 提供的下令工具,已预感到力不从心,这时间 Kafka 的监控系统此刻便尤为显得紧张,我们需要观察消费应用的详情。监控系统业界有许多良好的开源监控系统。我们在早期,有使用 KafkaMonitor 和 Kafka Manager 等,不过随着业务的快速发展,以及互联网公司特有的一些需求,现有的开源的监控系统在性能、扩展性、和 DEVS 的使用效率方面,已经无法满意了。因此,我们在已往的时间里,从互联网公司的一些需求出发,从各位 DEVS 的使用经验和反馈出发,结合业界的一些开源的 Kafka 消息监控,用监控的一些思考出发,设计开发了如今 Kafka 集群消息监控系统: Kafka Eagle。
四、kafka 小结:

第1章 初识 kafka
第2章 kafka 生产者
第3章 kafka 消费者
第4章 kafka 主题 topic
第5章 kafka 分区
第6章 kafka 物理存储
第7章 kafka 稳定性
第8章 kafka 高级应用
第9章 kafka 集群管理
第10章 kafka 监控
上一节关联链接请点击
# Kafka_深入探秘者(9):kafka 集群管理

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

三尺非寒

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表