tsx81428 发表于 2024-9-26 10:19:43

1-5-10 快恢在数字化安全生产平台 DPS 中的计划与落地

配景

11 月 5 日,在 2022 杭州 · 云栖大会上,数字化安全生产平台 DPS 重磅发布,助力传统运维向 SRE 转型,在数字化安全生产平台 DPS 重磅发布中提到了 DPS 诞生的配景,希望解决的企业题目以及核心的功能点,此中提到了 DPS 目前的两大业务场景:"1-5-10"故障快恢和"变动三板斧"故障预防,本文将阐述 “1-5-10”故障快恢场景的背后的计划与实现。
1-5-10 介绍

1-5-10 对应故障的“1 分钟发现-5 分钟响应-10 分钟规复”,是定义故障处理的时效性目标。在阿里巴巴内部颠末多年的实践,1-5-10 早已成为各个业务稳固性、基础办法稳固性以及大促保障的重要牵引指标,目的是缩短故障规复时长(MTTR),低沉故障影响。DPS 通过将阿里云高可用产品体系与阿里巴巴安全生产理论体系相结合,实现了 1-5-10 的产品化落地。
下图是 1-5-10 的产品架构图:
https://i-blog.csdnimg.cn/blog_migrate/be0d7f5bfd86c273bf16d54d8decdedb.png
1-5-10 场景包罗事前稳固性分析,事中应急处理,事后连续运营三个步调。


[*]事前稳固性分析是 1-5-10 的条件,包罗业务分析,风险分析以及构造分析三个维度。DPS 通过专家咨询服务加产品线,服务组,业务场景拓扑等产品功能相结合的方式来实现。
[*]事中应急处理是 1-5-10 的核心,包罗以下几个部门:   
   
[*]故障发现:通过建立围绕业务应用的全链路监控本领,可以大概实时监控业务健康度,如发现稳固性题目转达至应急保障服务组举行排查,低沉故障发生的可能性。   
[*]故障响应:通过建立应急响应渠道和全链路故障定位本领,可以大概快速拉通故障排查职员,基于 AIOps 智能故障定位和基于 ChatOps 举行故障状态更新和关照流转,提升故障处理服从。   
[*]故障快恢:通过建立美满的故障快恢体系,基于方案内置丰富的快恢本领,可以大概根据差异的故障类型智能化推荐合适的快恢预案,缩短故障规复时长。

[*]事后的连续运营是 1-5-10 的结果度量,包罗以下几个部门:   
   
[*]结果指标:用来衡量稳固性保障的结果,核心是业务可用率,重大故障收敛数目以及无重大故障时长。   
[*]本领指标:从提升稳固性本领的角度来分析,核心就是 1-5-10 的达标率,并且支持从故障,事件,构造,职员,团队等多维度来举行分析。

以上是 1-5-10 场景的团体产品本领介绍,下面展开介绍 1 分钟发现,5 分钟响应以及 10 分钟快恢是怎样计划与落地。
1 分钟发现

要做到故障的一分钟发现,首先必要有美满的监控/告警体系,其次必要有明确的故障结构化定义。在现实应用中,会碰到如下的一些题目:
面对题目



[*]业务监控的复杂性导致题目的沉没
一个生产业务监控,涵盖了各式各样的指标,从业务层面、应用层面、服务层面、系统层面,基础办法层面等等,好比下面:


[*]网络传输监控(丢包,延伸)
[*]服务器系统状态(CPU、load)
[*]假造机,容器监控
[*]应用运行状态(成功率、qps)
[*]业务运行状态(订单创建量…)
[*]用户体验(白屏、内容错误)
当故障发生的时候,可能上述任何一层的指标都会出现异常,假如不能对指标举行合理的分层和针对性的建设,就会被沉没在一堆指标告警监控里面,不光可能忽略真正的题目,还有可能使得运维职员难以应付。


[*]监控数据和故障不能有效关联
什么是故障? 在一样平常运营中,无论什么原因导致服务中断、服务品质降落或用户服务体验降落的现象,称为故障。只有清楚定义业务故障,并且将故障监控举行关联才气做到真正故障的快速发现。然而在生产业务中,每每只聚焦于监控管理,而忽略了故障定义的重要性。
解决思路

监控


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 1-5-10 快恢在数字化安全生产平台 DPS 中的计划与落地