论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
软件与程序人生
›
DevOps与敏捷开发
›
FT-FMEA融合混沌演练,零售运营系统韧性架构在线验证实 ...
FT-FMEA融合混沌演练,零售运营系统韧性架构在线验证实践 ...
忿忿的泥巴坨
金牌会员
|
2024-5-20 18:36:58
|
显示全部楼层
|
阅读模式
楼主
主题
526
|
帖子
526
|
积分
1578
本文分享自华为云社区《
FT-FMEA融合混沌演练,零售运营系统韧性架构在线验证实践
》,作者:《华为云确定性运维案例集(第2期)》聂刚。
一、业务配景
某零售企业业务范围覆盖20+个省份、数百个城市,为千家万户的生活提供服务,深受大众青睐。近年来,面对新零售和业务规模的不停扩大,该企业致力于实现业务的全面数字化,连续开发新的IT产品,覆盖从供应链到市场营销、客户服务到商店运营,逐步实施数字化转型,以低沉运营成本,提升运营服从。
某系统为该零售企业新开发的一款IT产品,已经上线生产环境,计划正式启动线下业务接入和引流。通过混沌演练对该应用生产环境的架构韧性进行一次引流前的“排雷”和“验收”,以确保在正式引流时无重大稳定性风险。
二、业务现状
随着数字化转型和业务规模的扩大,该企业新开发门店运营系统XX。该系统主体接纳容器化部署,对周边15+个系统有依赖,所依赖的系统中有超过10年的旧系统,存在较大的可用性隐患。由于担负全部门店的运营重任,企业希望该IT系统有较高的韧性以应对不测灾害、依赖系统不可用、促销活动中瞬时大流量、运营商网络故障等潜伏的故障风险。
三、方案实践
COC平台的混沌演练承载华为云混沌演练的最佳实践,包含从风险识别、应急预案制定、故障注入到演练复盘的全流程,其中风险识别接纳FT-FMEA风险分析方法论,故障注入接纳自研的故障注入探针。在华为云实践超过4年,每年运行超3000+的自动化混沌演练,节约演练人力超过1500小时。设计流程如下:
1.风险识别和管理
结合XX应用的部署架构和对外依赖图,基于FT-FMEA故障分析法分析该应用在生产环境的风险,形成故障模式。COC内置华为云FT-FMEA故障分析法,帮助用户从系统架构、SLO要求、故障场景分类、故障发生条件、客户影响等方面对系统风险进行高效分析,形成故障模式。
FMEA(Failure Mode Effect Analysis)劈头于NASA,主要从业务的功能点出发,列出可能的失效模式、结果和缘故原由、相应的控制手段,结合故障的严重品级、发生概率和可检测性等因素,最后对该模式得出RPN乘积分数,通过该分数可以判断该故障模式的风险品级。FMEA给出了面向风险的故障分析方法,但FMEA中故障发生概率、严重程度、可检测品级的分类品级到达10个,在实际实施时难以匹配,容易导致故障模式发散,进而影响故障管理的服从。华为云从实践中总结出FT-FMEA(基于容错视角的故障场景分析法),在FMEA的基础上,结合SRE实践场景,融合为7维故障分析框架,是专门面向SRE场景的故障分析方法,能够在确保故障全面分析的基础上故障模式不发散,有效进步故障场景分析的服从和质量。
对XX IT系统在COC上使用FT-FMEA后总结的故障模式列表如下,将原来90+的故障模式融合为30+个,为后续的应急预案制定、故障注入方案设计奠定了扎实的基础。
2.制定应急预案
根据分析出的故障模式,结合COC内置的华为云应急预案引导模板和该零售企业的运维实际情况,对每一个故障模式制定对应的应急预案。COC支持全自动化、自动化+人工混淆,这两种方式的应急预案,以应对差别故障模式的应急恢复所需。
3.制定演练计划
基于故障模式,结合该IT系统的业务繁忙时段,在COC上制定好演练计划。
4.设计故障注入方案、实行演练、应急恢复
针对故障模式,结合应用的部署情况,设计演练方案,以验证该IT系统的自愈本领、应急预案本领、运维人员的恢复本领。
1)根据选择的故障模式,在COC上选择攻击目的和攻击场景,形成演练任务,以准确模拟故障模式的发生条件。
2)启动自动化演练,观察监控系统是否能够快速检测到故障和告警、该IT系统的自愈时长、运维人员是否能够按照应急预案熟练操作,最终记录下该系统的RTO。
5.演练复盘和总结
COC平台对本次演练进行自动打分,本次演练的观察组在COC中录入改进事项。该系统在本次演练活动中RTO不达标,除此之外,演练共发现18个问题,典型问题如:监控缺失、告警系统有功能BUG、该IT系统的实际部署情况和设计图存在肯定差别、系统拨测缺失、运维人员对运维工具的使用不熟练等。
四、业务提升
本次演练接纳COC平台对XX IT系统进行全流程多场景的混沌演练,演练达成的结果如下:
1)全面分析XX IT系统的潜伏风险,使用FT-FMEA分析法,在确保全面风险识别的情况下,故障模式由90+个缩减为30+个,缩减了66.66%,达成故障模式收敛提质的目的。
2)对每个故障模式制定应急预案,沉淀在COC平台上,通过演练验证和改善了应急预案的可行性,为该IT系统面临的潜伏风险建立了可靠高效的恢复本领。
3)COC混沌演练平台的自动化演练本领将演练服从提升10+倍,演练发现问题18个,通过改进落实,该系统SLO提升至99.99%,到达门店运营对该系统的可靠性要求。
五 案例总结
本次案例针对零售企业的XX系统对高可用的要求,使用COC平台进行风险分析、应急预案制定和故障演练。本次演练使用FT-FMEA风险分析法快速高效地识别该系统面临的风险,通过自动化的故障注入验证该系统的风险点和应急预案的有效性。对演练发现的问题进行改进落实,将该系统SLO提升至99.99%,到达门店运营对该系统的可靠性要求。
演练是检验和提升系统的可用性的最佳方式,结合零售企业的运维情况,总结出以下混沌演练的最佳实践原则:
1.明白评价标准
• 混沌演练的全流程都能产生价值,要明白混沌工程各环节的输出件和评价标准,并承载到在线演练平台中。
• 混沌演练是自动暴露风险的技术,通过实时激励来鼓励研发和运维人员自动暴露风险,并对风险制定好应急预案。
2.做好混沌演练,要做到故障模式分析先行
• 故障模式作为演练的起点,决定了演练的质量,应急预案作为恢复手段,是演练安全性和一样平常故障快速恢复的保障。
• 使用FT-FMEA方法分析的故障模式,在精准识别风险的同时也能够有效避免故障模式的数目发散。
3.使用自动化演练方式
• 自动化演练工具能够低沉演练的门槛,提升演练服从,确保故障注入的安全性、准确性。
• 自动化演练工具能够对演练进行在线管理,确保演练的按时实行和演练经验的传承和积累。
4.做好演练运营
• 蓝军可以协调组织较大型的演练活动,在检验各IT系统韧性的同时,也能做好树模,带动独立系统的一样平常演练,到达演练一样平常化,演练无死角的结果。
• 对演练活动、演练结果进行运营和宣传,能够让IT开发和运维人员意识到系统可能面临的风险,将质量文化自动落实在研发和运维流程中。
点击关注,第一时间了解华为云新鲜技术~
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
正序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
发新帖
回复
忿忿的泥巴坨
金牌会员
这个人很懒什么都没写!
楼主热帖
Kubernetes(K8S) Controller - Deploym ...
springmvc异常处理解析#ExceptionHandl ...
day3 函数的定义和调用,练习编写简单 ...
[20221018]本地运行与远程运行.txt ...
MySQL 并行复制方案演进历史及原理分析 ...
Fireasy3 揭秘 -- 代码编译器及适配器 ...
axios 传递参数的方式(data 与 params ...
MySQL运维5-Mycat配置
【iOS逆向与安全】frida-trace入门 ...
隐匿自己的c2服务器(一)
标签云
挺好的
服务器
快速回复
返回顶部
返回列表