网易云音乐故障 2 小时,这次到底谁背锅?(本日记得领赔偿)
大家好,我是程序员鱼皮,8 月 19 日下午,网易云音乐突发严峻故障,并登顶微博热搜,跟黑神话悟空抢了热度。https://pic.yupi.icu/1/image-20240820095640193.png
根据用户的反馈,故障的具体表现为:用户无法登录、歌单加载失败、播放信息获取失败、无法搜索歌曲等等,几乎是无法使用了,妥妥的 P0 级变乱!
https://pic.yupi.icu/1/image-20240820100151703.png
根据官方发布的阐明,本次故障的主要原因是底子设施,导致网易云音乐各端无法正常使用:
https://pic.yupi.icu/1/image-20240820095247469.png
什么是底子设施?是指支持整个系统运行的底子性服务和资源,包罗服务器、网络设备、数据库、存储系统、内容分发网络(CDN)、各种云服务、缓存、DNS、负载均衡等等。像之前 B 站和小红书大规模故障,就是由于某云服务商的网络出了题目,可见底子设施的重要性。
我不是内部人员,所以具体的故障原因不得而知,网上有很多推测,什么 “开发删库跑路”、“搬迁到新机房产生了题目”、“裁员导致降本增笑” 等等,但这些说法被官方否认了。
根据网上的消息,这次的故障大概与网易云自研的 Curve 存储系统有关,当时网易官方称该存储系统上线 400 多天,从未出现数据不划一和丢数据的情况,数据可靠性达到 100%,服务可用性高达 4 个 9(99.99%)。
https://pic.yupi.icu/1/image-20240820101349277.png
按理说稳固运行了这么久的系统不应该自己出题目,听说是一位同学按照前人的文档执行了一个运维操作,导致了存储系统的故障。一般来说,这么重要的底子设施的变更发布需要走非常完备的流程,而且不会让不熟悉的人按照前人的文档执行,除非有一种情况,就是 “前人” 已经不在了。根据网上消息,该部门曾经历过裁员,更有小道消息说,该部门仅存的人员寥寥无几。
真相我们不得而知,不外听上去挺合理的。由于一般情况下,大厂内部是有灰度发布、容灾演练的,不会直接影响到所有用户。
[*]灰度发布是指在更新 IT 底子设施时,采用渐渐部署的方式,先在一部分设备上举行变更,观察其效果。假如一切正常,才渐渐扩大变更范围。
[*]容灾演练是指对底子设施在灾难发生时的应急响应和恢复能力举行测试和验证,确保在关键的底子设施发生故障或灾难时,系统能够灵敏恢复,减少业务中断的影响。
大厂的架构师,尤其是底子设施团队的人员,肯定是知道这些操作的,但为什么没有执行呢?大概是由于人手不敷、也大概是由于懒、还大概是由于如今的人缺失经验、还有大概是前人留下的文档不全。总之,系统的稳固性和 “人” 有很大的关系。
让我又想到了前次微软全球蓝屏的变乱,果然严峻的 Bug 往往只需要一两名程序员、或者一些小的操作。
整个故障恢复历时整整 2 个小时,已经是比较慢了,采用预备方案恢复服务、或者屏蔽部分故障、或者回滚发布,应该都要不了这些时间,估计是数据出了题目吧。假如在故障中数据出现了破坏或不划一,恢复服务的难度简直会大大增加,为了确保数据完整性,大概需要举行数据恢复、重修索引、同步数据等操作,而这些都大概会延长故障恢复的时间。
目前还没有看到官方的故障报告,所以这一切只是推测了。
故障恢复后,网易云音乐很快发布了赔偿措施 —— 用户可以免费领取 7 天会员权益! 留意,只能在 8 月 20 日领取!
https://pic.yupi.icu/1/image-20240820095258747.png
进入云音乐就能在搜索条看到领会员的入口了,虽然只有 7 天,差点儿意思,但作为一名网易云音乐 10 级会员,我必须领爆!
https://pic.yupi.icu/1/image-20240820104129248.png
从这个变乱也能看出来,一旦故障发生了,头大的可不但有开发和运维人员!产品同学需要快速制定赔偿计谋,确保用户满意;运营和客服要紧急应对用户的疑问和投诉,安抚情绪;而公关则必须灵敏应对舆论压力,控制事态发展,防止负面影响扩散。同时,管理层还需统筹调和各部门,确保题目得到全面处理。
我们自己也做了很多产品,也发生过故障,我们这小规模应对起来都汗流浃背了,很难想象网易云音乐这种国民级产品背后的团队,昨天承受了多大压力。劳力越戴,责任越大呀!
朋侪们,你们怎么对待这次故障,有怀疑过自己网络或设备的题目么?
更多编程学习资源
[*]Java前端程序员必做项目实战教程+毕设网站
[*]程序员免费编程学习交流社区(自学必备)
[*]程序员保姆级求职写简历指南(找工作必备)
[*]程序员免费口试刷题网站工具(找工作必备)
[*]最新Java零底子入门学习路线 + Java教程
[*]最新Python零底子入门学习路线 + Python教程
[*]最新前端零底子入门学习路线 + 前端教程
[*]最新数据结构和算法零底子入门学习路线 + 算法教程
[*]最新C++零底子入门学习路线、C++教程
[*]最新数据库零底子入门学习路线 + 数据库教程
[*]最新Redis零底子入门学习路线 + Redis教程
[*]最新计算机底子入门学习路线 + 计算机底子教程
[*]最新小程序入门学习路线 + 小程序开发教程
[*]最新SQL零底子入门学习路线 + SQL教程
[*]最新Linux零底子入门学习路线 + Linux教程
[*]最新Git/GitHub零底子入门学习路线 + Git教程
[*]最新操作系统零底子入门学习路线 + 操作系统教程
[*]最新计算机网络零底子入门学习路线 + 计算机网络教程
[*]最新设计模式零底子入门学习路线 + 设计模式教程
[*]最新软件工程零底子入门学习路线 + 软件工程教程
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]