马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
×
很多 SRE 团队都有一个很玄妙的厘革。
已往各人最焦急的是“没有监控”。
呆板有没有指标?
服务有没有大盘?
接口有没有乐成率?
日记能不能查?
链路有没有 Trace?
告警能不能发到群里?
这些题目在很多公司已经根本办理了。
Prometheus 有了,Grafana 有了,日记平台有了,APM 有了,云监控有了,Zabbix 大概也还在,告警也能通过飞书、钉钉、企业微信、短信、电话触到达人。
看起来,SRE 应该比从前轻松。
但真原形况通常相反。
告警更多了。
大盘更多了。
体系更多了。
链路更长了。
排障时要打开的页面也更多了。
值班的人还是会在半夜被唤醒。故障发生时,各人还是会在群里问:谁负责这个服务?近来有没有发布?先看日记还是看 Trace?这个告警是真故障还是派生告警?有没有人接?
这就是本日很多 SRE 团队真正的逆境。
题目已经不再是“有没有监控”,而是“监控信号能不能变成有效办法”。
监控越多,SRE 未必越轻松
这几年,可观测性创建的方向很清楚:收罗更多数据,接入更多体系,覆盖更多维度。
这件事固然有代价。
没有指标,你不知道体系是不是慢了。没有日记,你不知道错误发生在那边。没有 Trace,你看不到一次哀求颠末了哪些服务。没有告警,你大概只能等用户投诉。
但题目在于,数据增长之后,人的负担不愿定降落。
很多团队创建可观测性之后,会进入一个新的阶段:数据不缺了,判断更难了。
一个接口乐成率降落,大概同时陪伴几十条告警:
接口错误率升高。
P99 耽误升高。
某个服务实例 CPU 升高。
Redis 超时增长。
MySQL 慢查询增长。
Kubernetes Pod 重启。
网关 5xx 增长。
卑鄙依靠毗连池耗尽。
每条告警都不是假的。
但它们也不愿定都是独立故障。
假如这些信号没有被构造起来,值班人看到的不是“一个必要处理惩罚的故障”,而是一堆同时扑过来的碎片。
这就是告警疲惫的根本缘故因由。
不是关照渠道太吵,而是体系没有把信号压缩成可明白、可判断、可分派的故障对象。
Grafana Labs 2025 年的观测性调研里,alert fatigue 依然是影响事故相应速率的核心停滞之一。Splunk/Cisco 的 2025 年观测性陈诉也提到,很多 ITOps 和工程团队同时受困于工具过多和误报过多。Catchpoint 的 SRE 陈诉则表现,toil 没有由于 AI 高潮自动消散,反而在一些团队里继承上升。
这些陈诉说的是同一件事:工具越来越多,但人的操纵负担没有同步降落。
SRE 的累,通常来自三类负担
我不太喜欢把 SRE 的压力简单归由于“体系复杂”。
体系复杂固然是究竟,但这个说法太大,落不到办法上。
更详细地看,SRE 本日的疲惫通常来自三类负担。
第一类,是告警噪声负担。
同一个题目触发多条告警,派生题目触发更多告警,规复和触发往返抖动,维护窗口里仍旧不绝关照。一个服务抖一下,群里几十条消息。一个机房网络非常,几百台呆板各自发告警。
这些告警看起来都在“提示风险”,但在事故现场,它们会斲丧人的注意力。
注意力是 On-call 最稀缺的资源。
半夜三点,一个人被唤醒之后,最必要的不是更多消息,而是一个明确判断:这是不是必要我处理惩罚的故障?影响面有多大?我应该先看那边?
第二类,是上下文拼接负担。
很多团队有完备的指标、日记、链路和事故体系,但这些体系之间没有形成排障路径。
告警里只有指标名。值班人要打开大盘看曲线,再去日记平台复制服务名,再去 APM 里查 Trace,再去发布平台看变动,再去 CMDB 或服务目次里找负责人。
每一步都不难,但每一步都要靠人记着。
这类工作很斲丧履历。
老同砚知道某个 label 代表哪个服务,知道某个仪表盘在那边,知道某个错误日记应该搜哪个字段。新同砚大概只看到一堆不认识的页面。
监控数据在那边,但明白数据的知识藏在人脑里。
第三类,是构造和谐负担。
故障相应从来不但是技能题目。
谁接办?谁判断影响?谁接洽研发?谁关照业务?谁同步客户?谁决定回滚?谁纪录时间线?谁复盘办法项?
假如这些事故没有流程支持,就会全部落到群聊里。
群聊很得当沟通,但不得当管理事故生命周期。
消息刷得很快,关键信息被沉没,责任人不清楚,状态没人更新,处理惩罚动作没有结构化纪录,事故竣过后复盘还要重新翻谈天纪录。
结果就是,故障规复了,但构造没有真正学习。
下一次雷同故障,还是靠同一批人、同一套履历、同样的疲惫感。
真正的题目,是从信号到办法的链路断了
我们可以把一次故障相应拆成五个环节。
第一,发现非常。
体系要能尽早发现业务指标、服务指标、资源指标或用户体验非常。
第二,明白非常。
值班人要知道这是不是故障,影响哪个业务,涉及哪些服务,是否和近来变动有关。
第三,触达准确的人。
不是把消息扔到一个大群里,而是根据服务、团队、严肃级别和值班表,关照到真正应该处理惩罚的人。假如没人相应,要自动升级。
第四,协同处理惩罚。
故障期间要有明确负责人、状态、时间线、处理惩罚动作、沟通渠道和外部同步方式。
第五,复盘改进。
事故竣过后,要沉淀根因、证据、时间线、改进项、责任人和停止日期,并反哺告警规则、runbook、知识库宁静台本事。
很多团队不是某一个环节完全没有,而是环节之停止开了。
监控体系负责发现非常。
日记体系负责查证据。
APM 负责看链路。
发布平台负责纪录变动。
IM 负责沟通。
工单体系负责纪录事项。
文档体系负责放 runbook。
复盘模板负责过后总结。
每个体系都能表明自己的代价。
但事故发生时,SRE 必要的是一条连贯链路,而不是一堆孤立工具。
假如非常信号不能变成故障对象,告警就会变成噪声。
假如故障对象不能带上上下文,排障就会变成人肉拼图。
假如上下文不能进入相应流程,协同就会变成群聊混战。
假如相应过程不能沉淀为知识,复盘就会变成文档归档。
这就是为什么很多团队“监控越来越完满”,但 SRE 仍旧越来越累。
第一件事:把告警变成故障对象
告警管理最轻易走偏。
很多团队一听到告警太多,就开始删规则、调阈值、低落关照级别。
这固然能镌汰关照量,但也大概带来漏报。
更好的做法,是先把对象分清楚。
原始监控体系发出来的是事故。好比一次触发、一次规复、一次状态厘革。
多个干系事故可以构成一条告警。比犹如一个实例、同一个查抄项,在一段时间里的触发和规复。
多条相似或干系告警,应该被压缩成一个故障。这个故障才是人真正要处理惩罚的对象。
也就是说,相应体系里不应该只有“告警列表”,还应该有“故障对象”。
故障对象要答复几个题目:
这是什么题目?
影响哪个服务或业务?
严肃级别是什么?
归并了哪些告警?
当前谁负责?
是否已认领?
是否必要升级?
是否必要开战情室?
处理惩罚希望是什么?
当团队从“处理惩罚每一条告警”转向“处理惩罚每一个故障对象”,告警疲惫才有大概真正降落。
这也是 Flashduty 这类告警相应平台的核心代价地点。
它不应该被明白成“把告警发得手机上”的工具,而是一个把多源告警同一接入、降噪、分派、升级、协同和复盘的相应体系。
Prometheus、Zabbix、Nightingale、Grafana、云监控都可以继承存在。关键是不要让它们各自把告警直接打到人身上,而是先辈入同一相应层。
先接住,再降噪,再分派,再闭环。
第二件事:把观测数据变成排障上下文
告警变成故障对象之后,还不敷。
故障对象必须带上下文。
否则值班人只是从“看一堆告警”变成“点开一个故障,再去一堆体系里找证据”。
可观测性平台真正应该做的,是把排障上下文提前构造好。
这里至少有三类上下文。
第一,时间上下文。
非常从什么时间开始?一连多久?和哪些发布、设置变动、扩容、运营活动、依靠非常发生在同一时间?
第二,资源上下文。
这个非常属于哪个业务、哪个接口、哪个服务、哪个组件、哪个实例、哪个集群、哪个机房?上卑鄙关系是什么?
第三,哀求上下文。
某次慢哀求对应哪些日记?有没有 TraceID?颠末哪些服务?在哪个调用阶段耗时非常?错误会集在哪类用户、地区或版本?
假如这些上下文没有被产物构造起来,就只能靠人现场拼。
这正是 Flashcat 这类全栈观测平台要办理的题目。
Flashcat 的重点不但是把指标、日记、链路、事故接进来,而是通过北极星、灭火图、事故墙、下钻规则和 FlashAI,把数据构造成排障路径。
北极星答复业务是否非常。
灭火图答复哪个观测对象非常。
事故墙答复非常前后发生了什么。
下钻规则把指标、日记、Trace、仪表盘和外部体系毗连起来。
FlashAI 在这些上下文之上辅助分析。
如许,事故现场就不再是从零开始搜索,而是沿着体系已经沉淀好的路径排查。
第三件事:让 AI 进入准确的位置
现在很多人谈 AI SRE。
这件事有代价,但也很轻易被讲空。
假如 AI 只是一个谈天框,问它“为什么服务慢了”,它大概率只能给出通用发起:查抄 CPU、内存、数据库、网络、依靠服务、近来发布。
这些发起不算错,但对事故现场资助有限。
真正有效的 AI SRE,至少要具备四个条件。
第一,它要带着事故上下文进入现场。
它要知道当前故障是什么,告警内容是什么,影响哪个服务,当前处理惩罚人是谁,战情室里讨论了什么。
第二,它要能调用工具。
只靠语言模子自己不能排障。它必要查询指标、检索日记、分析 Trace、读取事故、调用内部工具,须要时实行受控下令。
第三,它要有恒久知识。
服务目次、架构分析、runbook、汗青故障、负责人、常见处理惩罚动作,都应该成为 AI 可利用的知识。
第四,它的过程要可审计。
AI 查了什么、基于什么证据得出结论、哪些是确定究竟、哪些只是推测,都应该可见。
这也是为什么 AI SRE 不应该被明白成“更换 SRE 的呆板人”。
更准确的定位是:带工具的观察员。
它资助人更快网络证据、更快压缩上下文、更快天生开端判断,但终极的根因确认、修复授权和改进允许,仍旧应该由人负责。
Flashduty 的 AI SRE 更得当从故障相应现场切入,好比从事故、战情室或 IM 群里直接唤起,让 AI 带着当前故障上下文开始观察。
Flashcat 的 FlashAI 更得当从观测上下文切入,好比围绕灭火图、北极星、事故墙、指标、日记和链路,分析非常对象和大概根因。
两者联合起来,AI 才不会停顿在“会商天”,而是进入真实故障流程。
第四件事:把复盘变成体系改进,而不是写陈诉
很多团队事故竣过后,会补一份复盘陈诉。
这固然比不复盘好。
但假如复盘只是为了归档,那它对下一次故障资助有限。
真正有代价的复盘,应该反向改造体系。
这次事故有没有漏报?
有没有误报和派生告警?
告警是否触达了准确的人?
MTTA 为什么这么长?
MTTR 卡在哪个阶段?
排障时缺了哪些上下文?
是否缺 runbook?
是否缺负责人信息?
是否必要新增下钻路径?
是否要把某类变动事故接入事故墙?
是否要把某个故障案例沉淀到知识库?
假如复盘能答复这些题目,它就不但是文档,而是下一轮稳固性创建的输入。
AI 在这里也很得当发挥作用。
它可以整理时间线、归纳战情室讨论、提取告警上下文、天生复盘初稿、整理办法项。
但它不能替团队负担责任。
根因是否建立,影响范围是否准确,改进项是否有 owner 和停止日期,这些仍旧必要人确认。
SRE 的未来,不是少看一个工具,而是少做无效拼接
SRE 不会由于工具更多而自动轻松。
也不会由于接入 AI 而自动轻松。
真正能减轻负担的,是把原来靠人脑临时完成的工作,沉淀到体系里:
把告警压缩成故障对象。
把数据构造成排障上下文。
把相应流程变成可度量链路。
把事故过程沉淀成知识。
把 AI 放在有上下文、有工具、有审计的位置。
这才是从“监控创建”走向“稳固性工程”的关键厘革。
已往,我们花了很多时间办理“有没有数据”。
接下来,更紧张的题目是:
信号来了以后,体系能不能帮人更快判断?
判断之后,能不能触达准确的人?
处理惩罚过程中,能不能把上下文和协同构造起来?
事故竣过后,能不能把履历沉淀回体系?
假如这些题目没有办理,监控越多,SRE 只会越累。
假如这些题目被体系性办理,监控和 AI 才会真正变成生产力。
对已经有 Prometheus、Zabbix、Grafana、日记平台、APM 和云监控的团队来说,下一步不愿定是再买一个监控工具。
更实际的路径是:
用 Flashcat 把观测数据构造成业务康健视图、故障排查路径和 AI 可明白的上下文。
用 Flashduty 把多源告警变成可分派、可升级、可协同、可复盘的故障相应闭环。
先选一个核心体系,接入一条真实告警链路,复盘近来一次真实故障。
你很快就能看出来,团队累在什么地方。
也能看出来,哪些工作应该继承靠人判断,哪些工作早就应该交给体系完成。
参考资料:
- Grafana Labs Observability Survey 2025:https://grafana.com/observability-survey/2025/
- Splunk / Cisco State of Observability 2025:https://newsroom.cisco.com/c/r/newsroom/en/us/a/y2025/m10/splunk-report-shows-observability-is-a-business-catalyst-for-ai-adoption-customer-experience-and-product-innovation.html
- Catchpoint The SRE Report 2025:https://www.catchpoint.com/press-releases/the-sre-report-2025-highlighting-critical-trends-in-site-reliability-engineering
免责声明:如果侵犯了您的权益,请联系站长及时删除侵权内容,谢谢合作!qidao123.com:ToB企服之家,中国第一个企服评测及软件市场,开放入驻,技术点评得现金. |