FT-FMEA融合混沌演练,零售运营体系韧性架构在线验证明践 ...

打印 上一主题 下一主题

主题 511|帖子 511|积分 1533

本文分享自华为云社区《FT-FMEA融合混沌演练,零售运营体系韧性架构在线验证明践》,作者:《华为云确定性运维案例集(第2期)》聂刚。
一、业务配景

某零售企业营业范围覆盖20+个省份、数百个都会,为千家万户的生活提供服务,深受大众青睐。近年来,面临新零售和业务规模的不断扩大,该企业致力于实现业务的全面数字化,连续开发新的IT产品,覆盖从供应链到市场营销、客户服务到商店运营,渐渐实施数字化转型,以降低运营本钱,提拔运营服从。
某体系为该零售企业新开发的一款IT产品,已经上线生产环境,操持正式启动线下业务接入和引流。通过混沌演练对该应用生产环境的架构韧性进行一次引流前的“排雷”和“验收”,以确保在正式引流时无巨大稳定性风险。
二、业务现状

随着数字化转型和业务规模的扩大,该企业新开发门店运营体系XX。该体系主体采用容器化摆设,对周边15+个体系有依靠,所依靠的体系中有凌驾10年的旧体系,存在较大的可用性隐患。由于担负全部门店的运营重任,企业希望该IT体系有较高的韧性以应对意外灾害、依靠体系不可用、促销活动中瞬时大流量、运营商网络故障等潜在的故障风险。
三、方案实践

COC平台的混沌演练承载华为云混沌演练的最佳实践,包含从风险辨认、应急预案订定、故障注入到演练复盘的全流程,其中风险辨认采用FT-FMEA风险分析方法论,故障注入采用自研的故障注入探针。在华为云实践凌驾4年,每年运行超3000+的自动化混沌演练,节约演练人力凌驾1500小时。计划流程如下:


1.风险辨认和管理

联合XX应用的摆设架构和对外依靠图,基于FT-FMEA故障分析法分析该应用在生产环境的风险,形成故障模式。COC内置华为云FT-FMEA故障分析法,帮助用户从体系架构、SLO要求、故障场景分类、故障发生条件、客户影响等方面临体系风险进行高效分析,形成故障模式。
FMEA(Failure Mode Effect Analysis)劈头于NASA,紧张从业务的功能点出发,列出大概的失效模式、效果和原因、相应的控制手段,联合故障的严峻品级、发生概率和可检测性等因素,末了对该模式得出RPN乘积分数,通过该分数可以判断该故障模式的风险品级。FMEA给出了面向风险的故障分析方法,但FMEA中故障发生概率、严峻程度、可检测品级的分类品级达到10个,在现实实施时难以匹配,容易导致故障模式发散,进而影响故障管理的服从。华为云从实践中总结出FT-FMEA(基于容错视角的故障场景分析法),在FMEA的底子上,联合SRE实践场景,融合为7维故障分析框架,是专门面向SRE场景的故障分析方法,能够在确保故障全面分析的底子上故障模式不发散,有效进步故障场景分析的服从和质量。
对XX IT体系在COC上使用FT-FMEA后总结的故障模式列表如下,将原来90+的故障模式融合为30+个,为后续的应急预案订定、故障注入方案计划奠定了扎实的底子。


2.订定应急预案

根据分析出的故障模式,联合COC内置的华为云应急预案引导模板和该零售企业的运维现真相况,对每一个故障模式订定对应的应急预案。COC支持全自动化、自动化+人工混合,这两种方式的应急预案,以应对不同故障模式的应急恢复所需。


3.订定演练操持

基于故障模式,联合该IT体系的业务繁忙时段,在COC上订定好演练操持。


4.计划故障注入方案、实行演练、应急恢复

针对故障模式,联合应用的摆设情况,计划演练方案,以验证该IT体系的自愈能力、应急预案能力、运维职员的恢复能力。
1)根据选择的故障模式,在COC上选择攻击目标和攻击场景,形成演练任务,以正确模仿故障模式的发生条件。
2)启动自动化演练,观察监控体系是否能够快速检测到故障和告警、该IT体系的自愈时长、运维职员是否能够按照应急预案熟练利用,终极记录下该体系的RTO。
5.演练复盘和总结

COC平台对本次演练进行自动打分,本次演练的观察组在COC中录入改进事项。该体系在本次演练活动中RTO不达标,除此之外,演练共发现18个题目,典范题目如:监控缺失、告警体系有功能BUG、该IT体系的现实摆设情况和计划图存在一定差异、体系拨测缺失、运维职员对运维工具的使用不熟练等。


四、业务提拔

本次演练采用COC平台对XX IT体系进行全流程多场景的混沌演练,演练达成的效果如下:
1)全面分析XX IT体系的潜在风险,使用FT-FMEA分析法,在确保全面风险辨认的情况下,故障模式由90+个缩减为30+个,缩减了66.66%,达成故障模式收敛提质的目标。
2)对每个故障模式订定应急预案,沉淀在COC平台上,通过演练验证和改善了应急预案的可行性,为该IT体系面临的潜在风险创建了可靠高效的恢复能力。
3)COC混沌演练平台的自动化演练能力将演练服从提拔10+倍,演练发现题目18个,通过改进落实,该体系SLO提拔至99.99%,达到门店运营对该体系的可靠性要求。
五 案例总结

本次案例针对零售企业的XX体系对高可用的要求,使用COC平台进行风险分析、应急预案订定和故障演练。本次演练使用FT-FMEA风险分析法快速高效地辨认该体系面临的风险,通过自动化的故障注入验证该体系的风险点和应急预案的有效性。对演练发现的题目进行改进落实,将该体系SLO提拔至99.99%,达到门店运营对该体系的可靠性要求。
演练是查验和提拔体系的可用性的最佳方式,联合零售企业的运维情况,总结出以下混沌演练的最佳实践原则:
1.明白评价标准

• 混沌演练的全流程都能产生价值,要明白混沌工程各环节的输出件和评价标准,并承载到在线演练平台中。
• 混沌演练是主动袒露风险的技术,通过及时鼓励来鼓励研发和运维职员主动袒露风险,并对风险订定好应急预案。
2.做好混沌演练,要做到故障模式分析先行

• 故障模式作为演练的出发点,决定了演练的质量,应急预案作为恢复手段,是演练安全性和一样平常故障快速恢复的保障。
• 使用FT-FMEA方法分析的故障模式,在精准辨认风险的同时也能够有效避免故障模式的数目发散。
3.使用自动化演练方式

• 自动化演练工具能够降低演练的门槛,提拔演练服从,确保故障注入的安全性、正确性。
• 自动化演练工具能够对演练进行在线管理,确保演练的按时实行和演练经验的传承和积累。
4.做好演练运营

• 蓝军可以协调组织较大型的演练活动,在查验各IT体系韧性的同时,也能做好树模,带动独立体系的一样平常演练,达到演练一样平常化,演练无死角的效果。
• 对演练活动、演练效果进行运营和宣传,能够让IT开发和运维职员意识到体系大概面临的风险,将质量文化主动落实在研发和运维流程中。

点击关注,第一时间了解华为云新鲜技术~


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

花瓣小跑

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表