这个计划外停机时间,通常是指系统不可用的时间,比如系统崩溃了,或者系统的某个功能不可用了,或者系统的某个功能的性能下降了,都可以算作计划外停机时间。与计划外停机时间相对的,显然是计划内停机时间,偶尔通知用户,说凌晨3点我会做系统升级,计划停机3分钟,这个3分钟就是计划内停机时间,这3分钟内的不可用,不影响SLA。
但是,很多系统都是分布式的,尤其是 Google,一个服务,通常不会完全不可用,可能某个 region 不可用,但是其他 region 还可用,所以,大型互联网公司的服务通常是不会 100% 不可用的,可能会部分不可用,此时这个计划外停机时间就不好计算了。怎么办?使用请求数量来统计,可用性计算公式变成: