举个简单例子,如果你的存储不稳定,而我上面存的是数字货币。结果因为云存储导致我上面几百个数字货币找不到了,这样的损失用户能接受得了么?啥?几百个数字货币你就给我一个月语雀会员?这不是找打么。甭说什么高性能,高并发,高可用,一铲子下去三高全完。
2015年5月27日16点40分,杭州市政建设工程施工过程中,一铲子下去杭州电信管道内四条大对数光缆中断,支付宝相关业务受到全面影响。至5月28日3点57分光缆陆续抢通,业务才逐步恢复。虽然铲子很厉害,但是数据表明,生产环境的故障90%以上都是变更引起的,所以我们要对变更格外重视和小心。发版要审批,变更要评审,上线要灰度,有问题快速回滚,系统有监控,异常有告警......这都是必备的。没有一环又一环的系统保障,没人敢对淘某宝这样一个DAU超5亿的站点进行变更。
某年的正月初六,大家还在春节的欢乐喜庆的氛围中,公司 Gitlab 服务器告警,硬盘故障,挂掉硬盘一块。没到五分钟,告警电话再次打来,硬盘又挂掉一块。服务器只有四块硬盘,这下raid5 也不好使了。冰冷的心,颤抖的手,就问你小腿抖不抖。对技术保障团队价值要有足够认知
好在我们做了主备,也做了冷备,且演练了多次。但还是用了一个多小时来恢复服务和验证数据。
还记得当初有个.NET开发的网站叫 360buy,每次促销都崩,以至于最后老板气不过,在微博上高喊给我加三倍服务器,促销延长3小时。对,你猜的没错,就是现在的 jd.com。现在京东的稳定性早已经今非昔比,双十一促销30天也不会崩,但这是这么多年真金白银堆起来的。研发总是在短期被重视,在长期被忽视;套用一下,技术保障团队也是如此的尴尬,持续投入的公司很少,尤其是公司效益不佳、看不到 infra 价值的时候。从公司角度来说,公司做新东西开展新业务,抢占市场,价值容易体现,每年带来多少营收很容易算出来,但是把钱投入到技术保障上,花费大效果还不明显。所以很多公司盘点业务的时候也不由自主地往业务发展上加码。
叫醒一个装睡的人是很难的。曾经有一个人问我,公司现在1000人,有必要建立专门的研发效能团队么?我说,既然还没体现出这块的价值,那就没必要。如果你还没意识到它的价值,让你做也做不好。只有自身意识到它的价值了,心里才会真的认可这件事。如果老板自身都没意识到它的价值,然后让团队去自证团队存在的价值,老板难,团队也难。安全团队的价值怎么体现?一年没有安全事故,安全团队的价值何在?没价值吧,裁俩。对于技术保障团队,证伪容易,证真难。一个故障把你打回原型,想再化成人形又不知道要蛰伏多少年。
「前沿数控」公司,所有数据都在云硬盘上,结果因为云硬盘故障,导致公司的所有数据全部丢失,无法恢复,一夜回到解放前,也不知道官司现在结果如何了。本文小结
欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) | Powered by Discuz! X3.4 |