聊聊容灾演练-练什么|深度好文

张春  金牌会员 | 2024-6-15 09:36:06 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 569|帖子 569|积分 1707

>​前一篇文章中,高可用(容灾)架构设计的核心要素|发起收藏,详细的介绍了如何架构高可用系统,应该考虑的哪些核心因素,本篇文章,我们就要验证高可用架构设计的系统的可用性,即容灾演练。


生产系统容灾演练,至少见过,储备灵活处理的机制,每次前进一点,做一些探索,为真的劫难来临,积累履历,锻炼队伍,成功了总结履历,失败了总结教训,要不停的形成,应对各种故障的手册、速查或者预案,做到有备,心里有数。


先形成纸质化,步伐化的xx操纵指导书,再逐步走入制度化,智能化。


在云计算云服务场景下,一样平常以SLA指标来衡量可用性(SLA,Service Level Agreement,即服务级别协议),一样平常是指提供服务的企业与客户之间就服务的品质、水准、性能等方面所达成的两边共同认可的协议或契约。直白一点,就是几个9几个5,比如四个9一个5,SLA就是99.995%。多说一点,数据可靠性会用别的一个指标来衡量,但是外貌上一样平常也是通过几个9来衡量,一样平常是九个9或者十一个9,数据可靠不丢失是底线,服务器可以断电,但数据必须安全可靠,有机会单独再讲解可靠性。


言归正传,回到本文主题,生产系统容灾演练对于验证一个高可用架构系统很重要,俗话说,真金不怕火炼,也是考验架构质量的一个评估标准。虽然说架构的质量很难直接衡量,聊聊架构的本质与架构职责,这篇文章中也做了一些探究。


因为任何时候都不能保证完美无缺的系统,以是每一家公司都需要定期举行容灾演练。这种演练是为了确保在真正的劫难来临时,公司的业务可以继续运行。而且,如许的演练还能帮助公司积累履历,锻炼队伍,总结履历和教训。


演练的过程中,最重要的是储备灵活处理的机制。每次前进一点,做一些探索。只有如许,才能在下一次的演练中变得更好,应对各种故障的手册、速查或者预案也会更加完善。


在演练失败的环境下,我们不应该悲观,反而应该更加积极去总结教训,找到问题所在,并尽可能地解决它们。如许才能确保在真正的劫难来临时,我们有充足的准备。成功了总结履历,失败了总结教训。


每一次的容灾演练都是一次名贵的履历,都是一次难过的经历,并且能够有效地提高我们的应急响应能力。每一次的演练不能白白的投入,要有代价沉淀,只有不停地积累演练的履历,才能使我们的公司在将来面临更大的寻衅时更加从容应对。



固然,对于容灾演练,我们应该遵循一些原则和指导方针。

首先是要定期举行演练。不仅是为了检验备份和恢复机制的可行性,还可以让员工认识自己在劫难中的任务和职责,提高应急反应速率。

其次,演练应该举行真实模拟。这意味着我们需要尽可能地还原真实场景,比如停电、网络中断等,以便更好地测试我们的应急预案和操纵流程。

此外,容灾演练应该是全员参与的。每个人都应该知道应该做什么、什么时候做、如何做,如许才能在面临劫难时齐心协力,迎难而上。

最后,演练结束后一定要实时总结履历和教训,并实时完善相应的预案和手册。只有如许,我们才能通过容灾演练为真正的劫难做好充足的准备。

总之,容灾演练黑白常重要的。我们不能因为没有出现干涉题就掉以轻心,反而应该抓住每一次机会,不停提高自己的能力,以保证公司业务的连续性和稳定性。


除了容灾演练之外,我们还应该在平常增强对生产系统的管理和运维,以尽可能地制止出现劫难。

首先,要增强数据备份和恢复机制的建设。在备份时,我们应该考虑不同场景下数据完备性和可用性的问题,比如备份的时间点、备份数据的存储位置等。在恢复时,我们应该反复测试,确保备份的数据是完备可用的。比如是四个小时备一次,照旧八个小时备一次,如果是四个小时备一次,那四个小时之内的数据怎么保证?这都是一个一个付出很大精力要考虑的现实问题。

其次,我们要严格控制访问权限,掩护系统的安全性和稳定性。每个员工都应该有明白的权限限制,并且需要颠末培训和考核,才能获得相应的权限。

此外,我们还需要订定规范的操纵流程和监控机制,实时发现并解决潜伏的问题。同时,要定期举行系统巡检和毛病扫描,提前发现风险,采取针对性的措施,以确保系统的安全和稳定。最最重要的,勇于识别每次演练中遇到的问题,不放过任何一个小点,认真总结,头脑风暴的研讨,逐项充分的讨论清楚,这些时间是值得的,然后针对讨论后的每一项,指定责任人,落地执行,一定要闭环,这是对公司对整个团队的资源代价最大化,每个人都是组织下的一员,至心的为共同愿景而付出积极,组织好了,个人代价也会随之出现。

我们的实践,哪里有痛点,就作为top重点工作抓,比如影响研发效率的代码检视、环境冲突不够、流水线执行时间长、变动时间长等等,这关乎每个人员工作的体验和工作质量以及工作氛围,甚至用精益的话讲,将浪费降低到最低,这是“降本增效”的最后一公里。降本增效的本质,可以在当前人员稳定的环境下,提拔效率,产出多了利润多了,成本也就降下来了,而不是把一上来就把人员减下去了,虽然短期降低了一些成本,恒久来看企业要做大照旧需要对应一定体量的人员支撑强大,人才是必不可少的。这些看起来都黑白常基层组织的一样平常工作,绝对是重中之重的工作。

最后,要注重团队建设。在一样平常工作中,我们应该增强沟通协作,创建紧密的团队互助关系。在应对劫难时,只有紧密协作、共同应对,才能更好的实现生产线的高效运转。

容灾演练只是生产系统管理和运维的一个方面。我们还需要在平常增强一样平常规范管理工作,不停完善相关机制和流程,才能更好地保障系统的稳定性和连续性。


对于演练的总结,绝对不能马虎行事,必须要至心付出时间和精力去系统思索,将思索和讨论的结晶先形成纸质化、步伐化的《xxx操纵指导书》,再逐步走向制度化、流程化和智能化,背后的目的是恒久的持续的识别和消灭浪费,降本增效,基业长青。以应对VUCA世界和BANI世界。


乌卡期间,即VUCA ,指的是易变不稳定(volatile)、不确定(uncertain)、复杂(complex)、模糊(ambiguous)。在20世纪90年代提出了VUCA这个术语。

世界的变化未曾停歇,乌卡期间还没有适应充分,Jamais Cascio在2016年与人互助创造了“BANI”一词,脆弱(Brittle)、焦虑(Anxious)、非线性(Nonlinear)、不可明白(Incomprehensible)。班尼期间到来。         https://www.shangyexinzhi.com/article/6472085.html
   
最大的浪费,绝对不能接受是履历的浪费,而现实是,一家企业最大的浪费往往是履历的浪费,比如我是经历了传统产品线和云上产品线两个完备经历的,我在传统产品线经历的那些名贵履历和最佳实践,同一家公司只是换了一种业务场景,都丢失了,有时候想想真的很心痛,没有经历过见证过前者的人是无法明白那种情感的。最最令人不可思议的是,同样一个团队,也有可能没继承前面专家的履历。
​规则,是实用于限制和束缚那样一样平常的人的,对于那些比力聪明的人可能是枷锁,但是站在企业的角度来看待这件变乱,大家共同在一起工作,肯定不能直接划成聪明人一波和平庸人一波,然后贴上标签,这对解放人的天性和激发个人潜能和组织活力及创新不利。把人的能力从个人的身上“剥夺”下来,固化到流程里面,可能会让一些人不爽,比如常常被吐槽的流程太过于繁琐和冗长,如许的规则简直是愚蠢,这些基本的动作完满是浪费时间(比如开发里面要认真填写MR的每一项,问题单里面必填的每一项),站在组织的角度从恒久和大局看,却不得不持续做这件变乱。


以前踩过的坑可能还会踩一遍,任何一个稍微有点责任感的组织都是不允许存在的,他们会创建回溯机制和知识管理平台,每一次的AAR和质量回溯都形成纪要和文档举行归档,然后由专门的KMers举行知识萃取和提炼,再交由工具装备部落地到技术平台,形成门禁拦截等一些本领,最终靠技术拦截和解决,形成一个闭环系统。


资源是会枯竭的,唯有文化生生不息。         
   


时下,除了“降本增效”还非常流行一个词,叫“内耗”,几个屌丝之间可能会“内卷”,但组织的运转如果熵增或者持续无序,那就是“内耗”,任何一个负责任的行政管理团队绝对不允许组织团体性“内耗”。


那么,对于容灾演练和生产系统管理和运维,创建一套完备的操纵指导书是十分必要的。如允许以在人员流动和知识传承等方面提供便利,也可以保证操纵的标准化和规范化。

首先,在创建操纵指导书时,我们应该根据实际环境对系统举行分析和归纳,确定操纵的步调、方法及其注意事项,形成一份详细的操纵手册。操纵手册应该包罗系统的基本说明、故障分析与处理、备份与恢复以及安全措施等方面的内容。

其次,对于那些需要常常执行且伤害度较高的操纵,我们可以考虑订定步伐化的操纵指导书。步伐化的操纵指导书是将某个操纵过程规范化、标准化,并转化为计算机可读的代码,从而使得机器可以自动执行这些操纵。如许一来,就不仅可以提高操纵的准确性和效率,还可以制止由于人为因素引起的错误和事故。

最后,在创建操纵指导书的基础上,我们可以逐步推进制度化和智能化的工作。在制度化方面,我们需要创建一套完善的管理流程和审批制度,确保操纵指导书得到有效的管理与应用。在智能化方面,我们可以采用人工智能技术,对系统举行自动化监控和预测,提前发现问题并实时处理,从而更好地保障系统的稳定性和连续性。

指导书的最佳实践一样平常是SOP(标准操纵过程)或者Check List(对照检查项)或者手册,像飞行员手册那样。

综上所述,操纵指导书的创建是容灾演练和生产系统管理和运维过程中非常重要的一个环节。我们应该充分利用科技本领(注意这里不是技术本领,技术还要考究科学)来增强管理和运维的效率和自动化程度,不停优化指导书和流程,提高公司的竞争力和运行效率。


总而言之,容灾演练,一演练的是高可用架构对应系统的质量即练系统,二演练的是每个人员的应变应急意识和能力即练兵,三演练的是在持续演练的过程中不停总结履历不停凝结知识不停提拔自我、提拔系统可用性和提拔组织韧性即练组织。
​​一元或在看都是莫大的鼓励,一起发展。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

张春

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表