论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
软件与程序人生
›
程序人生
›
网易云音乐故障 2 小时,这次到底谁背锅?(本日记得领 ...
网易云音乐故障 2 小时,这次到底谁背锅?(本日记得领赔偿) ...
万万哇
金牌会员
|
2024-8-20 19:48:24
|
显示全部楼层
|
阅读模式
楼主
主题
784
|
帖子
784
|
积分
2352
大家好,我是程序员鱼皮,8 月 19 日下午,网易云音乐突发严峻故障,并登顶微博热搜,跟黑神话悟空抢了热度。
根据用户的反馈,故障的具体表现为:用户无法登录、歌单加载失败、播放信息获取失败、无法搜索歌曲等等,几乎是无法使用了,妥妥的 P0 级变乱!
根据官方发布的阐明,本次故障的主要原因是底子设施,导致网易云音乐各端无法正常使用:
什么是底子设施?是指支持整个系统运行的底子性服务和资源,包罗服务器、网络设备、数据库、存储系统、内容分发网络(CDN)、各种云服务、缓存、DNS、负载均衡等等。像之前 B 站和小红书大规模故障,就是由于某云服务商的网络出了题目,可见底子设施的重要性。
我不是内部人员,所以具体的故障原因不得而知,网上有很多推测,什么 “开发删库跑路”、“搬迁到新机房产生了题目”、“裁员导致降本增笑” 等等,但这些说法被官方否认了。
根据网上的消息,这次的故障大概与网易云自研的 Curve 存储系统有关,当时网易官方称该存储系统上线 400 多天,从未出现数据不划一和丢数据的情况,数据可靠性达到 100%,服务可用性高达 4 个 9(99.99%)。
按理说稳固运行了这么久的系统不应该自己出题目,听说是一位同学按照前人的文档执行了一个运维操作,导致了存储系统的故障。一般来说,这么重要的底子设施的变更发布需要走非常完备的流程,而且不会让不熟悉的人按照前人的文档执行,除非有一种情况,就是 “前人” 已经不在了。根据网上消息,该部门曾经历过裁员,更有小道消息说,该部门仅存的人员寥寥无几。
真相我们不得而知,不外听上去挺合理的。由于一般情况下,大厂内部是有灰度发布、容灾演练的,不会直接影响到所有用户。
灰度发布是指在更新 IT 底子设施时,采用渐渐部署的方式,先在一部分设备上举行变更,观察其效果。假如一切正常,才渐渐扩大变更范围。
容灾演练是指对底子设施在灾难发生时的应急响应和恢复能力举行测试和验证,确保在关键的底子设施发生故障或灾难时,系统能够灵敏恢复,减少业务中断的影响。
大厂的架构师,尤其是底子设施团队的人员,肯定是知道这些操作的,但为什么没有执行呢?大概是由于人手不敷、也大概是由于懒、还大概是由于如今的人缺失经验、还有大概是前人留下的文档不全。总之,系统的稳固性和 “人” 有很大的关系。
让我又想到了前次微软全球蓝屏的变乱,果然严峻的 Bug 往往只需要一两名程序员、或者一些小的操作。
整个故障恢复历时整整 2 个小时,已经是比较慢了,采用预备方案恢复服务、或者屏蔽部分故障、或者回滚发布,应该都要不了这些时间,估计是数据出了题目吧。假如在故障中数据出现了破坏或不划一,恢复服务的难度简直会大大增加,为了确保数据完整性,大概需要举行数据恢复、重修索引、同步数据等操作,而这些都大概会延长故障恢复的时间。
目前还没有看到官方的故障报告,所以这一切只是推测了。
故障恢复后,网易云音乐很快发布了赔偿措施 —— 用户可以免费领取 7 天会员权益!
留意,只能在 8 月 20 日领取!
进入云音乐就能在搜索条看到领会员的入口了,虽然只有 7 天,差点儿意思,但作为一名网易云音乐 10 级会员,我必须领爆!
从这个变乱也能看出来,一旦故障发生了,头大的可不但有开发和运维人员!产品同学需要快速制定赔偿计谋,确保用户满意;运营和客服要紧急应对用户的疑问和投诉,安抚情绪;而公关则必须灵敏应对舆论压力,控制事态发展,防止负面影响扩散。同时,管理层还需统筹调和各部门,确保题目得到全面处理。
我们自己也做了很多产品,也发生过故障,我们这小规模应对起来都汗流浃背了,很难想象网易云音乐这种国民级产品背后的团队,昨天承受了多大压力。劳力越戴,责任越大呀!
朋侪们,你们怎么对待这次故障,有怀疑过自己网络或设备的题目么?
更多编程学习资源
Java前端程序员必做项目实战教程+毕设网站
程序员免费编程学习交流社区(自学必备)
程序员保姆级求职写简历指南(找工作必备)
程序员免费口试刷题网站工具(找工作必备)
最新Java零底子入门学习路线 + Java教程
最新Python零底子入门学习路线 + Python教程
最新前端零底子入门学习路线 + 前端教程
最新数据结构和算法零底子入门学习路线 + 算法教程
最新C++零底子入门学习路线、C++教程
最新数据库零底子入门学习路线 + 数据库教程
最新Redis零底子入门学习路线 + Redis教程
最新计算机底子入门学习路线 + 计算机底子教程
最新小程序入门学习路线 + 小程序开发教程
最新SQL零底子入门学习路线 + SQL教程
最新Linux零底子入门学习路线 + Linux教程
最新Git/GitHub零底子入门学习路线 + Git教程
最新操作系统零底子入门学习路线 + 操作系统教程
最新计算机网络零底子入门学习路线 + 计算机网络教程
最新设计模式零底子入门学习路线 + 设计模式教程
最新软件工程零底子入门学习路线 + 软件工程教程
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
万万哇
金牌会员
这个人很懒什么都没写!
楼主热帖
markdown day 01
基于CSDN云和docker全家桶的微服务项目 ...
【云原生】Docker 进阶 -- 数据卷使用 ...
Nacos注册中心-----从0开始搭建和使用 ...
ClickHouse(05)ClickHouse数据类型详解 ...
谈谈技术能力
redis for windows 7.0.2安装包全网首 ...
阿里云域名购买流程以及免费证书的申请 ...
读Java性能权威指南(第2版)笔记02_ J ...
WPF dotnet 6 开启 PM v2 的 DPI 感知 ...
标签云
挺好的
服务器
快速回复
返回顶部
返回列表