未来演进思考 多单位研发成本和效率优化
字节跳动从原本的单 Region 内同城容灾架构演进到多 Region 异地单位化架构周期比力短(一年半左右),底子设施对多 Region 视角的支持还比力不足,对业务的团体研发和业务管理成本偏高,必要将多 Region 的研发和业务管理成本打平到单 Region。 极致的成本优化
从计算资源成本视角:在原来三机房同城容灾模式下,每个机房必要预留 50% 的 Buffer 用于机房故障容灾,演进到异地单位化架构后,基于两个容灾单位间的六个机房,部分业务机房故障可以将流量分摊到其他五个机房,此时各机房仅需 20% 的 Buffer。
从存储资源成本视角:我们现在是 同城容灾+异地多活 的容灾模式,各单位都支持同城容灾,因此部分业务可以直接进行数据的单位化拆分,单位内各自只有一部分数据(加起来是全量数据),抱负情况下存储成本镌汰一半。 更复杂的单位化架构演进
未来字节跳动在国内会有更多的地区,差别业务在各单位的排布模型会越来越复杂,结合我们复杂的业务依靠关系,这里的流量调治模型、数据单位化和同步模型都必要演进。
未来地区增多后,业务随着发展机房排布会调解,可能会必要在非容灾单位之间调解流量,此时存在数据单位化拆分和用户维度数据单位间搬迁本领,必要办理用户维度数据的识别和低成本搬迁题目。 更完善的数据多活本领
字节跳动现在的存储对 AP 场景更友好(偏重抖音这种社交类场景),主要围绕单 Region 构建,在多单位场景下对于电商、支付类(对数据一致要求非常高)的业务支持较弱,在异地单位化架构下强依靠数据同步本领来支持多单位数据多活本领,业务上的限定偏大(例如写只能同一在一个单位),有跨 Region 强一致数据库的需求。