【运维监控】Prometheus+grafana监控flink运行情况

农民  金牌会员 | 2024-11-22 00:36:12 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 873|帖子 873|积分 2619


  • 运维监控系列文章入口:【运维监控】系列文章汇总索引


  



  • 本示例通过flink自带的监控信息袒露出来,然后将数据收集到prometheus中,最后通过grafana的dashboard导入模板举行可视化。
  • 本示例分为四个部分,即prometheus、grafana摆设、flink设置修改和最后的集成。
  • 说明:本示例中的摆设情况没有要求,即应用摆设的呆板根据实际情况而定,只要网络连通即可。
一、prometheus

参考:【运维监控】prometheus+node exporter+grafana 监控linux呆板运行情况关于prometheus的摆设。
二、grafana

参考:【运维监控】prometheus+node exporter+grafana 监控linux呆板运行情况 关于grafana的摆设。
三、flink设置修改

flink的摆设请参考文章:1、Flink1.12.7或1.13.5详细先容及本地安装摆设、验证
在该文章的底子上,增长如下设置,修改的是flink-conf.yaml设置文件。
  1. metrics.reporter.prom.factory.class: org.apache.flink.metrics.prometheus.PrometheusReporterFactory
复制代码
设置文件保存后,重启flink集群。由于是集群情况,所以需要将整个集群的设置文件都需要修改,端口可以设置,也可以不设置,不设置端口,默认的是9249。
flink集群启动后,集群的任意服务器都可以按照如下方式访问袒露的指标数据,形如http://server4:9249/,图示如下。

四、prometheus集成grafana监控flink

1、修改prometheus设置文件

在prometheus的设置文件(prometheus.yml)中添加如下设置部分。作者的flink是集群高可用情况,即jobmanager摆设在server1、server2上,taskmanager摆设在server1、server2和server3服务器上。
  1.   - job_name: "flink-job-manger"
  2.     static_configs:
  3.       - targets: [ "server1:9249","server2:9249" ]
  4.     metrics_path: /
  5.   - job_name: "flink-task-manger"
  6.     static_configs:
  7.       - targets: [ "server2:9249","server3:9249","server4:9249" ]
  8.     metrics_path: /
复制代码
重启prometheus后,并验证是否收集到监控信息。
检察Prometheus是否监控到运行的flink应用如下图。

检察prometheus是否收集到监控信息如下图(查询flink_taskmanager_Status_Shuffle_Netty_UsedMemory)

2、导入grafana模板

导入过程不再赘述,参考文章:【运维监控】Prometheus+grafana监控tomcat8.5 运行情况
本示例导入的模板ID是14911(Apache Flink (2021) Dashboard for Job / Task Manager)。
3、验证

以上所涉及的服务均能正常的运行,以及验证都通过。
点击添加的flink模板,则显示如下图所示。(如果想显示的数据比力多,则需要利用flink做一些复杂的使命,否则有些数据可能没有。)


  • Job Manager (JVM - CPU)

  • Job Manager (JVM - Memory Usage)

  • Job Manager (JVM - Garbage Collector)

  • Job Manager (Slots & Jobs)

  • Job Manager (Checkpoints)

  • Task Manager (JVM - CPU)

  • Task Manager (JVM - Memory Usage)

  • Task Manager (JVM - Garbage Collector) 和Task Manager (Memory - Flink)

  • Task Manager (Memory - Shuffle Netty)

  • Task Manager (Job Task - Diag)

  • Task Manager (Job Task - General)



    以上,完成了Prometheus+grafana监控flink运行情况示例。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

农民

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表