三尺非寒 发表于 2024-11-20 14:12:54

Ease Monitor 会把基础层,中间件层的监控数据和服务的监控数据打通,从总

1. 产品定位

Ease Monitor 有如下的产品定位:
关注于整体应用的SLA。 主要从为用户服务的 API 来监控整个系统。
关联指标聚合。 把有关联的系统及其指示聚合展示。主要是三层系统数据:基础层、平台中间件层和应用层。
快速故障定位。 对于现有的系统来说,故障总是会发生的,而且照旧会频繁发生。故障发生不可怕,可怕的是故障的规复时间过长。所以,快速的定位故障就相当关键。
换句话说,Ease Monitor 主要是为以下两个场景所计划的:
“体检”
容量管理。 提供一个全局的系统运行时数据的展示,可以让工程师团队知道是否必要增加机器或是别的资源。
性能管理。可以通过查看大盘,找到系统瓶颈,并有针对性的优化系统和相应代码。
“急诊”
定位问题。可以快速的袒露并找到问题的发生点,帮助技术人员诊断问题。
性能分析。当出现不预期的流量提升,可以快速的找到系统的瓶颈,并可以帮助开辟人员深入代码。
下图是一个很常见的环境:
https://i-blog.csdnimg.cn/direct/8d75812591254eca80cd60ad21bd6858.png
2. 计划原则

Ease Monitor 其实是一种 APM - Application Performance Management,但是又不同于传统意议上的 APM 软件。
主要有下面两个方面影响了 Ease Monitor 的计划:
不同的工程视角。我们知道,在很多公司有不同的工程师角色,如:开辟、应用运维、系统运维等等,他们会站在不同的地方来看一个系统,例如:
司理们主要关心的是整个系统的运行康健环境,不太关注细节。
软件开辟工程师主要关注应用的运行状态。
运维人员主要关注底层和各种中间件的运行状态。
不重新发明轮子。重新开辟一个监控就像是重新发明一个轮子,因为这个世界上已经有很多的监控系统了。所以,我们不想重新发明轮子。我们盼望我们的 Ease Monitor 是一个可以足够兼容现有的主流的监控软件,而且可以像乐高玩具一样,可以做到其中的组件随意更换随意剪裁的效果。
所以,Ease Monitor 有如下的计划原则:
利用主流的技术。 我们盼望我们利用的技术是绝大多数的工程师团队熟悉并可以运维的。
组件都可以被更换和被裁剪。 因为不同的场景有不同的需求和业务形态,所以,计划必需做到有足够的灵活度可以轻易地更换或裁剪相当的组件。
跟踪用户请求。 可以在一个分布式的系统,从端到端跟踪整个用户的调用。
引导工程本领。 好的一个监控至少可以让工程师做两件事:1)快速地定位故障,2)轻易的做出工程上的决定。
驱动主动化。 一个好的监控系统可以和现有的集群控制系统关联起来,做主动化运维。如:主动化扩展,或是主动化的资源或流量调理。
全栈监控。我们必需对三层软件进行监控:
应用服务层。 在这一层上,主要是对应用服务的关键指针进行监控,如:HTTP request, Status code, Throughput, Latency …等等。
平台中间件层。 在这一层上,主要是参考相关的中间件进行监控,如:Nginx, Redis, Tomcat, Kafka, MySQL… 等等。
基础层。 在这一层上,主要是对相关主机的操纵系统进行监控,如:CPU, Memory, Disk, Network … 等等。
自定义的仪表盘。 不同的用户有不同的视角,所以,用户可以定义自己感兴趣的仪表盘。
3. 系统架构计划

https://i-blog.csdnimg.cn/direct/ce9dd61cd95649afb103833aff9aec6c.png
上图是整个 Ease Monitor 的架构图所用到的技术。
数据收罗端
基础层和中间件指标收罗 - Telegraf
日志收罗 - Filebeat 和 Fluentd
Java Agent - EaseAgent (我们自研并开源了这个组件 - Apache 2.0允许证。详见 “技术细节” 一节)
数据处理管线
数据总线 - Apache Kafka
数据 ETL - Logstash
数据存储 - ElasticSearch
报警数据 - InfluxDB
报警触发和报警处理 - 我们自研了这个组件。详见 “技术细节” 一节
Web前端控制台 - 我们自研了这个组件。详见 “技术细节” 一节
对于这个技术架构,其中的技术都是主流的成熟的,其被计划于可以监控一个规模很大的集群,而且其中的组件是可以被灵活的裁剪和取代。
4. 系统要求和限制

目前,Ease Monitor 只支持如下的系统环境。
Java 语言系的应用。Java的版本得 >= 1.6
Linux 操纵系统。
5. 功能展示

5.1 总体仪表板

总体仪表板主要展示了系统整体的康健和容量环境。
https://i-blog.csdnimg.cn/direct/4a1cfa31849e440089c6bed7977fdd97.png
5.2 服务 SLA 日报

下图展示了服务的SLA报告,可以是全站的,也可以是单个服务的
https://i-blog.csdnimg.cn/direct/f1cd39504de24ff4bbe93525ae7551e3.png
5.3 面向服务的大盘

下图整合了服务的流量,服务的上下游,服务的TOP API,最慢的Tracing,相关资源利用指示的整体大盘
https://i-blog.csdnimg.cn/direct/e48893a4bf6542a6a8a3bcdbec07b037.png
5.4 调用链跟踪

下图展示了一个整体调用拓扑图。
https://i-blog.csdnimg.cn/direct/2b6099e1d7ab42148238c9b056059521.png
下图展示了一个请求在整个系统中的服务调用链以及相应的时间分布。
https://i-blog.csdnimg.cn/direct/c0248b06629141ef8ba5006707869f79.png
5.5 系统请求排名列表

系统请求排名列表列出了系统比力耗时的请求以及相关的请求热点。
Nginx 请求排名列表
https://i-blog.csdnimg.cn/direct/90915950bccd4ce0a137ad23526202d6.png
JDBC 数据库操纵排名列表
https://i-blog.csdnimg.cn/direct/ef84763af96d4f118e8f12acb7539314.png
5.6 可自由定制的仪表盘

基础操纵系统的仪表盘
https://i-blog.csdnimg.cn/direct/7310b94a0e3348a6906903a7632296dc.png
6. 技术细节

6.1 EaseAgent

EaseAgent 是一个利用 Instrument API开辟的 Java Agent,利用字节码加强的方式对应用的性能和调用链数据进行网络。
它针对利用Spring Boot的代码做了大量的加强。
兼容主流监控生态系统,如Kafka、ElasticSearch、Prometheus、Zipkin等。
EaseAgent 网络基本指标和服务跟踪日志,对性能分析和故障排除很有帮助。
6.1.1 计划原则

它服从微服务架构计划,从服务的角度网络数据。
以无侵入的方式对应用程序字节码进行加强。
轻量级而且对CPU、内存和 I/O 资源利用率非常低。
对Java应用程序是安全可靠的。
6.1.2 兼容性与要求

记录性能数据和调用链日志
JDBC 4.0
HTTP Servlet、HTTP Filter
Spring Boot 2.2.x: WebClient 、 RestTemplate、FeignClient
RabbitMQ Client 5.x、 Kafka Client 2.4.x
Jedis 3.5.x、 Lettuce 5.3.x
记录访问日志
HTTP Servlet、HTTP Filter
Spring Cloud Gateway
支持在应用的日志中增加traceId and spanId。
提供康健检查的API。
提供应用就绪检查的API
6.1.3 收罗数据种类

服务器收到 HTTP 请求的 Metric。
JDBC Connection 获取和 Statement 实行的 Metric, 以及调用关联信息(如 URL,SQL等)
兼容 Zipkin 协议的分布式调用链数据,包罗:
HTTP 接收 与 发送
SQL 实行
Redis 访问
6.1.4 安装与利用

从 release 下载 easeagent.jar 后, 添加如下 Java 运行时参数:
-javaagent=easeagent.jar
6.2 事件报警

当前,Ease Monitor 的事件报警支持如下的用户案例。
指标 - 一连时间 - 阈值。 当一个指标在一个时间段内一连超过所设置的阈值,引发报警。如:在两分钟内 cpu 利用率一连超过 80% 。
指标 - 一连时间 - 百分比分布 - 阈值。 当一个指标在一个时间段间的某个百分比分布超过所设置的阈值,引发报警。如:99%的请求响应时间在两分钟内超过 300ms (即:P99)
指标 - 一连时间 - 函数 - 阈值。 支持一些简朴的函数盘算 Sum/Average/Min/Max/Count。如:在两分钟内 JVM 的 GC 次数超过所设置的阈值(利用Sum函数)。
日志 - 一连时间 - 关键词 - 匹配次数。监控日志中某个关键词在一个时间段内出现的次数超过某个数目,引发报警。关键词支持正规表达式匹配。
6.3 数据存储格式

下面是 Ease Monitor 在 ElasticSearch 中的数据存储格式。
6.3.1 索引格式

https://i-blog.csdnimg.cn/direct/c5255b77dfe64688b9c35d1c069b408c.png
6.3.2 文档类型格式

我们有如下的文档类型的存储格式:
Index mapping template
ease-monitor-metrics-* - 用于存储时序类型的指标数据。
ease-monitor-aggregate-metrics-* - 用于存储 Java Agent 所收罗的数据。
ease-monitor-logs-* - 用于存储日志数据。
Category
application - 表明是应用层的数据种类。
platform - 表明是平台层中间件的数据种类。如:nginx, redis, tomcat, mysql, kafka … 等等。
infrastructure - 表明是基础层的数据种类。如: CPU, MEM, DISK, NET 指标。
Document Type
组件名称
组件的指标和统计名。
相关示例:
https://i-blog.csdnimg.cn/direct/e1cdfb5ac513459dba251ed357bb87a4.png
https://i-blog.csdnimg.cn/direct/8ffb8d5f31da48ad83deedb66558a01f.png
文档


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: Ease Monitor 会把基础层,中间件层的监控数据和服务的监控数据打通,从总