ToB企服应用市场:ToB评测及商务社交产业平台

标题: 1-5-10 快恢在数字化安全生产平台 DPS 中的计划与落地 [打印本页]

作者: tsx81428    时间: 2024-9-26 10:19
标题: 1-5-10 快恢在数字化安全生产平台 DPS 中的计划与落地
配景

11 月 5 日,在 2022 杭州 · 云栖大会上,数字化安全生产平台 DPS 重磅发布,助力传统运维向 SRE 转型,在数字化安全生产平台 DPS 重磅发布中提到了 DPS 诞生的配景,希望解决的企业题目以及核心的功能点,此中提到了 DPS 目前的两大业务场景:"1-5-10"故障快恢和"变动三板斧"故障预防,本文将阐述 “1-5-10”故障快恢场景的背后的计划与实现。
1-5-10 介绍

1-5-10 对应故障的“1 分钟发现-5 分钟响应-10 分钟规复”,是定义故障处理的时效性目标。在阿里巴巴内部颠末多年的实践,1-5-10 早已成为各个业务稳固性、基础办法稳固性以及大促保障的重要牵引指标,目的是缩短故障规复时长(MTTR),低沉故障影响。DPS 通过将阿里云高可用产品体系与阿里巴巴安全生产理论体系相结合,实现了 1-5-10 的产品化落地。
下图是 1-5-10 的产品架构图:

1-5-10 场景包罗事前稳固性分析,事中应急处理,事后连续运营三个步调。

以上是 1-5-10 场景的团体产品本领介绍,下面展开介绍 1 分钟发现,5 分钟响应以及 10 分钟快恢是怎样计划与落地。
1 分钟发现

要做到故障的一分钟发现,首先必要有美满的监控/告警体系,其次必要有明确的故障结构化定义。在现实应用中,会碰到如下的一些题目:
面对题目


一个生产业务监控,涵盖了各式各样的指标,从业务层面、应用层面、服务层面、系统层面,基础办法层面等等,好比下面:

当故障发生的时候,可能上述任何一层的指标都会出现异常,假如不能对指标举行合理的分层和针对性的建设,就会被沉没在一堆指标告警监控里面,不光可能忽略真正的题目,还有可能使得运维职员难以应付。

什么是故障? 在一样平常运营中,无论什么原因导致服务中断、服务品质降落或用户服务体验降落的现象,称为故障。只有清楚定义业务故障,并且将故障监控举行关联才气做到真正故障的快速发现。然而在生产业务中,每每只聚焦于监控管理,而忽略了故障定义的重要性。
解决思路

监控


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4