腾讯云也崩了。。

农民  金牌会员 | 2024-5-16 19:04:42 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 885|帖子 885|积分 2655

各人好,我是R哥。
昨天腾讯云崩了,事变大概是这样的,15 点多的时间有好几位粉丝向我反馈,说小程序「Java口试库」不能正常加载答案,我看了下背景系统日志,发现腾讯云情况 API 接口调用异常
然后发现小程序开发工具和云开发情况也进不去了:


心里判定大概率是腾讯云出了故障,于是我跑去平台交换社区看了下,果然发现满屏的小程序和腾讯云故障的题目


腾讯云控制台也进不去了:

明确了是腾讯云的故障,我紧急向「Java口试库」微信群发布了故障通知,在和粉丝的沟通中,也有粉丝说客户用的腾讯云 API 也报错了:

约莫比及 16:40 左右,腾讯云小程序云情况部分终于恢复了,但粉丝反馈说腾讯云控制台还是死的:


同时,我相识到此次故障可能是由于全面升级云存储解决方案造成的,升级的目的是使数据洗濯和训练耗时收缩一半,结果此消息刚发没多久,云产品就全线崩溃。。
从 15 点多发生故障,再到 17:16 彻底恢复,整个过程耗时超过一个半小时,全年不可用时间超过 90 分钟,这意味着腾讯云的 2024 年度 SLA 服务可用性已经达不到 4 个 9 了,即 99.99%
到达 99.99% 需要全年不可用时间不超过 52.6 分钟,关于 SLA 服务可用性的计算可以参考这篇:SLA 服务可用性 4 个 9 是什么意思?怎么到达?
虽然如今的互联网用户都对云故障习以为常了,包容性也更强了,但这么长时间不可用,这对目前来说严重依靠云服务的企业来说是不可接受的,可能会面对巨大损失。
最后,此变乱也让我罗致教导了。
我对小程序「Java口试库」作了以下调解优化:
一、服务降级
当遇到不可抗力的故障外,给出降级策略:
1、调用云情况 API 接口部分,采用缓存策略,定时拉取最新数据并缓存到本地,假如调用 API 失败即利用本地缓存,这样可以做到 99% 的用户不受云情况 API 故障影响。
2、不在缓存中的数据,提醒用户类似如 “腾讯云故障,官方正在修复中,请稍候重试...” 的友好说明,避免对口试库产生误会。
二、定期备份数据
虽然腾讯云有定期备份策略,但关键的数据还得自己备份存档,以防止不测发生。
最近口试的人还挺多了,小程序「Java口试库」所用的腾讯云带宽都开始报警了:

不过还好,只是偶尔的高峰而已,外网出带宽利用率还没超过平均值,有口试需要的来小程序「Java口试库」刷题吧,口试库更新了 3 年+,从 0 更新到如今 2500+ 道题,帮助很多小搭档找到了工作,也有不少进入大厂的案例。
昨天小程序因官方故障,有个粉丝说他 5 点尚有口试:

看来不少人对我的Java 口试题依靠还挺深,裁员越来越多,刷题口试找工作的人也越来越多,本年我也会继续优化和升级服务,尽可能保证刷题可用性和稳定性。
更多文章推荐:
1.Spring Boot 3.x 教程,太全了!
2.2,000+ 道 Java口试题及答案整理(2024最新版)
3.免费获取 IDEA 激活码的 7 种方式(2024最新版)
觉得不错,别忘了随手点赞+转发哦!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

农民

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表