论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com技术社区
»
论坛
›
软件与程序人生
›
程序人生
›
通过滴滴技术博客:探寻造成此次P0故障的真正原因 ...
通过滴滴技术博客:探寻造成此次P0故障的真正原因
农妇山泉一亩田
论坛元老
|
2024-1-19 23:01:33
|
显示全部楼层
|
阅读模式
楼主
主题
1617
|
帖子
1617
|
积分
4851
2023年11月27日晚至2023年11月28日早晨,滴滴发生了长达12小时的P0级故障,导致滴滴核心业务都受到了影响,比如不显示定位无法打车、滴滴单车无法扫码等问题,期间滴滴进行了多次致歉
来源:
https://weibo.com/2838754010/NuMAAaUEl
目前问题故障已经恢复,根据最新的消息得知
造成此次事故的原因,是由于升级K8S 集群导致
那么在K8s升级过程中,遇到了那些问题,我们可以从
滴滴弹性云基于 K8S 的调度实践
文章中看出一些原因
1. 集群体量大
最大集群规模已经远远超出了社区推荐的5千个 node 上限,有问题的爆炸半径大;
2. 版本升级跨度大
直接从1.12 升级到了1.20,跨越多个版本,有可能存在api不兼容的问题
3. 升级方式应该选择了原地升级
虽然滴滴有能力基于K8S二次
开发
,但是由于版本跨度较大,细节点较多,原地升级风险我觉得比替换升级
大不少。
比如集群版本已经升级为1.20,但是Node节点的kubelet的版本还是 1.12,如果api不兼容,那么这个影响是非常大的,集群回滚又没有那么快。
基于以上三点P0故障就这样产生了,至于为什么不采用替换升级方式?
作者认为
替换升级需要业务系统配合,推进困难
通常情况下,替换升级的风险最小,因为一旦出现问题,可以及时回滚,然而这种方式需要与业务系统进行配合改造。
对于像滴滴这样规模巨大的业务,让每个业务方逐一配合是非常困难的(也可能业务方核心人员被降本增效了)。
同时,如果替换升级出现问题,业务方也有一定的责任,因此干脆由
运维
团队来负责这个任务可能更为合适。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
正序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
发新帖
回复
农妇山泉一亩田
论坛元老
这个人很懒什么都没写!
楼主热帖
厉害了,腾讯云云巢荣获信通院“云原生 ...
2022 春节抖音视频红包系统设计与实现 ...
数据库概述
【Redis高手修炼之路】②Redis的五大数 ...
原型设计工具比较及实践--滴爱音乐 ...
ABP Framework 5.3.0 版本新增功能和变 ...
OpenHarmony和HarmonyOS有什么区别?这 ...
多线程(一)-两种创建线程的方式 ...
LoRa模块无线收发通信技术详解 ...
体系集成商已死,有事烧纸:浙江着名集 ...
标签云
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
DevOps与敏捷开发
登录参与点评抽奖加入IT实名职场社区
下次自动登录
忘记密码?点此找回!
登陆
新用户注册
用其它账号登录:
关闭
快速回复
返回顶部
返回列表