我们的体系应该配置哪些监控报警项?

打印 上一主题 下一主题

主题 994|帖子 994|积分 2982

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
漫笔

从千万粉丝“何同学”抄袭开源项目说起,为何纯技术死路一条?
数据源的统一与拆分
监控报警体系的指标、规则与执行闭环
我们的体系应该配置哪些监控报警项?
监控报警体系如何实现自监控?
java 老矣,尚能饭否?
一骑红尘妃子笑,无人知是荔枝来!
应用监控指北

解设我们千辛万苦搭建好了一个监控平台,那么应该配置哪些监控项呢?
本文将以普通易懂的方式,梳理简朴梳理一下需要的关键监控项。
一、基础设施层监控

1. 服务器硬件资源


  • CPU使用率
    高CPU使用率会导致性能瓶颈,需要及时监控和优化。
  • 内存使用率
    内存不足大概导致体系崩溃或频繁垃圾接纳(GC)。
  • 磁盘IO和空间
    磁盘耗尽或IO瓶颈会直接影响体系的可用性。
  • 网络带宽和耽误
    网络丢包和耽误问题会影响体系性能,尤其在分布式体系中。
2. 虚拟化和容器


  • 容器资源限制(CPU、内存、磁盘空间)
    超出限制会导致应用异常。
  • 主机节点资源利用率
    确保多个容器或虚拟机稳定运行。
工具推荐:使用普米(Prometheus)和 Zabbix 进行及时监控。
二、应用层监控

1. 服务健康状态


  • 接口可用性
    确保核心业务接口可访问。
  • 响应时间
    及时发现性能下降的问题。
  • 错误率(如5xx、4xx)
    快速辨认程序异常或配置错误。
2. 应用性能


  • QPS/TPS(每秒查询/事务量)
    衡量体系负载能力。
  • 线程池状态
    制止线程池耗尽,确保服务稳定。
  • GC时间和频率
    排查Java等语言的内存管理问题。
3. 日志异常


  • 关键字监控(如“ERROR”、“Exception”)
    快速定位潜在问题。
  • 日志流量突增
    大概是体系故障或恶意攻击的信号。
工具推荐:使用 CAT 监控性能,日志指标采集工具监控日志异常。
三、数据库层监控

1. 毗连池


  • 毗连池使用率
    毗连耗尽会直接影响业务执行。
2. 查询性能


  • 慢查询
    找出性能瓶颈的SQL语句。
  • 查询失败率
    预警潜在的数据库问题。
3. 数据库资源


  • CPU、内存、磁盘IO
    衡量数据库压力。
  • 主从同步耽误
    确保数据一致性。
数据库监控也可以通过普米设置报警。毗连池可以通过 CAT 中的拓展。慢日志可以基于日志。
四、网络层监控

1. API网关


  • 请求数量和耽误
    评估流量和性能。
  • 限流/熔断触发次数
    发现流量异常或下游问题。
2. 网络毗连


  • HTTP毗连错误率
    检查毗连超时或网络停止。
  • 防火墙规则日志
    检测潜在的恶意访问。
五、安全监控

1. 用户举动


  • 登录失败次数
    防止暴力破解。
  • 敏感利用日志
    追踪高风险利用。
2. 体系漏洞


  • 异常文件改动
    检测入侵举动。
  • 未授权访问
    发现非法利用。
这些一般从属于安全部门处置惩罚,但是安全部门一般不是研发,也是需要借助一个平台的。
六、业务指标监控

1. 核心业务流程


  • 订单数量、支付乐成率
    确保业务正常运行。
  • 用户转化率
    发现问题并优化策略。
2. 自定义指标

根据业务模子定制监控指标(如库存状态、广告点击率)。
业务体系是非常复杂的,一般可以配置数量+失败率/乐成率+颠簸比例
总结

实施监控的关键原则

  • 全面性
    覆盖体系的各个层级,制止监控盲区。
  • 及时性
    快速收集数据,及时发现并处置惩罚问题。
  • 高可用性
    监控体系本身需要稳定可靠。
  • 机动性
    支持动态调解监控规则和指标。
结合本身具体的业务,配置后及时的处置惩罚报警,而不是等用户报警上来时,希望可以帮到你。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

美丽的神话

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表