ToB企服应用市场:ToB评测及商务社交产业平台

标题: 像 Google SRE 一样 OnCall [打印本页]

作者: 大连全瓷种植牙齿制作中心    时间: 2024-4-11 21:28
标题: 像 Google SRE 一样 OnCall
在 Google SRE 的著作《Google运维解密》(原作名:Site Reliability Engineering: How Google Runs Production Systems)中,Google SRE 的关键成员们几乎不惜用了三个章节的篇幅描述了在 Google 他们是如何 OnCall 的。
Google SRE 实践中,有一个广为人知的理念:减少琐事,用软件工程的方式解决运维问题。具体到实际操作层面,Google SRE 设定了一个重要的、公开的目标:保持每个SRE的工作时间中琐事比例低于50%,SRE 至少花 50% 的时间在工程项目上,以减少未来的琐事或为服务增加新功能。
Google SRE 团队认为,琐事过多,会产生以下不利的后果:
根据统计数据显示,琐事的第一大来源是中断性工作,另一个主要来源是OnCall。前者大多为与服务相关的非紧急事务,后者则为紧急的应急事务。在 Google,一个 SRE 团队至少要保持6~8人的规模,才能保证因 OnCall 轮值产生的琐事低于30%。
管中窥豹,Google SRE 的工作方式,不是谁都有条件学,也不是谁都可以学的来的。需要从文化 机制 工具层面综合考虑,以国内的运维现状来看,这是有一些实际困难和阻力的。
文化

首先,在文化层面,Google SRE 倡导以人为本,关注人的发展,着眼长期结果。在国内加班文化盛行,996甚嚣尘上。具体到 IT 运维领域,表现为:
机制

其次,在机制层面,Google SRE 明确执行“琐事不能超过50%”的机制,确保一个独立的 SRE team 最少保持6人的规模,以支撑轮换 OnCall,同时给予工作时间之外的 OnCall 工作以额外的补贴。
在国内这个操作难度很大,国内的大多数企业,SRE人数 vs 研发总人数的比例普遍接近1:100,要保持6人的SRE team,几乎是不可能的。
工具

最后,在工具层面,Google SRE 内部使用的 OnCall 工具为 Outalator。在 Outalator 中,SRE 们在一个集中的平台上,管理着告警的全生命周期过程,具体的来讲,功能包括:
Outalator 大概长下面这样:  
总结来讲,通过使用专业的 OnCall 工具,可以有效的解决日常工作中运维和研发人员面临的以下困扰:

我们可以像 Google SRE 一样 OnCall 吗?

通过以上的分析,坏消息是文化和机制层面,学起来有阻力,好消息是工具层面,Google 的 OnCall 工具可选项还不少。
我们熟知的 Kubernetes 是 Google 内部容器编排工具 Borg 的开源实现,Prometheus 是 Google 内部监控工具 Borgmon 的开源版本。那么 Google 内部的 OnCall 工具 Outalator 有没有相关的产品呢?今天就给大家带来市面上两款典型的 OnCall 工具的介绍和分析。
没有度量就没有改进,在实际工作中,运维负责人表面看到的是告警太多、团队成员疲于奔命,但苦于看不清告警处理的工作量,没法规划协调补充人力,更严重的是看不清优化告警的方向,导致情况持续恶化,最终团队散了,故障频发。一个好的 OnCall 工具,需要透出下面 5 个关键的度量指标:
下面笔者将从产品、价格与服务三个维度,来探讨国内外这两款 OnCall 产品 Flashduty 和 Pagerduty 的差异。
产品

集成能力

故障管理系统作为流程处置中心,存储了全部的告警和故障数据。此类系统应该支持强大的数据接入和外呼能力,以便和其他各类系统或工作流集成,加速响应、增强协同。

故障处置

故障处置为系统的核心操作,该维度下主要考察产品功能的丰富度和灵活性。

平台能力

平台能力主要在成员管理、值班响应和通知能力层面,系统要具备基本的审计和单点登录功能。通知渠道越丰富越好,本地化支持越多越好,值班管理最好能满足组织内的特殊场景。

价格

PagerDuty 和 FlashDuty都提供多种订阅方式。选择的时候在满足自身需求的情况下,哪一款更具性价比,确保实际使用不超预算,计价方式的简单性都很重要。

服务

服务维度主要考察供应商服务响应的方式、专业性、及时效性。

注册

现在点击专属链接 完成注册,立即开始在 IM 中处理告警。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4