蓝方在混沌工程平台,按照之前收集的演练场景创建演练任务或批量创建演练任务。如下图: 图8.蓝方创建任务
说明以下几点:
① 底层集群的攻击主要通过命令、脚本实现,这里暂不详细叙述。
② 网络延迟、丢包故障可能演练失败,原因:限制网络故障演练(该宿主机内核版本存已知BUG不能演练) "4.18.0-80.11.2.el8_0.x86_64"。
③ 内存利用率100%场景,因为linux内存满了会触发oom kill,所以建议设置90%。
④ 演练时长建议大于5分钟,原因:有些应用配置的mdc报警周期范围是5分钟内,如果演练时长小于5分钟可能收不到报警。
4.4.3 【红方】防守修复故障
① 未配置报警规则。例,mdc或ump平台未配置报警。
② 未触发告警阈值。例,蓝方攻击时cpu利用率90%但mdc报警规则配置的是95%。
③ mdc平台禁用告警。例,mdc暂时禁用了模版中心的MDC监控与告警。 图12.演练存在问题
4.6 演练复盘
主负责人组织红蓝对抗复盘会议,提供演练结果、问题列表,实时+离线架构师均参加,从演练过程、演练效果等角度对本次演练进行评价或建议。
① 告警级别需要自查修正。目前部分告警级别配置偏低,cpu利用率大于90%时,报【警告】,建议改为【紧急】。
② 延长攻击时间。找某几个应用,攻击时间为30+分钟,验证防守人员是否真正摘流量。
③ 混沌演练常态化。可通过混沌工程平台-常态演练进行,并结合值班表增加演练频次,以战养兵。
④ 分步演练【警告】、【紧急】场景。第一步先攻击10分钟触发【警告】的场景,第二步再攻击10分钟触发【紧急】的场景。
⑤ java方法异常、延迟场景未演练。后续期望测试人员通过forcebot压测来支持流量流入。
期望混沌平台的支持:
① 混沌工程平台支持一次批量选择多个应用创建、启停混沌演练任务。可提高创建任务效率,目前的批量创建演练任务功能,只能一个一个的添加应用进行创建。
② 混沌工程平台提供常态化混沌演练api。方便用户自定义创建常态化演练任务。
③ 混沌工程平台支持在平台内查看mdc、ump告警。减少用户在多个平台系统来回切换。
五、总结