数据库管理之冷热数据分离

打印 上一主题 下一主题

主题 835|帖子 835|积分 2505

优质博文:IT-BLOG-CN
一、配景

随着机票业务的快速发展,订单量持续增长对业务性能带来影响,需要举行冷热数据分离。目前机票订单模块紧张使用Mysql(InnoDB)作为数据库存储,历史订单信息状态修改频率低并占用大量数据库存储空间,期望历史数据与生产最新的数据举行分离,当前数据库保存最近一个月的数据作为热库,历史生意业务存在另一个库作为冷库。减少因在线存储空间不足扩容导致停服不可用的时长。
如何判定一个数据是冷数据还是热数据?
需要根据自己业务系统来区分了,一般而言是根据主表中的一个大概多个字段举行标识区分,好比订单的时间,这个是时间维度,可以将3个月之前的数据界说为冷数据,最近3个月的数据界说为热数据。固然也可以是状态维度,好比订单的状态,已完结的订单界说为冷数据,未完结的订单界说为热数据。同样的也可以将时间维度和状态维度组合起来,好比下单时间大于3个月且订单状态为已完结的界说为冷数据,反则为热数据。
   我的冷热数据怎么拆分的:已过腾飞时间 + 订单状态=“完成”的数据都是冷数据,别的为热数据。
  二、方案选型

业务代码修改

这种方案是在业务代码层面判定是否举行冷热数据分离,对代码的侵入性比力高,在数据修改时触发冷热分离。因机票QPS很高,如果更新状态时,需要举行举行冷热数据分离,删除热库中的数据,并将数据写入冷库中,需要使用到分布式事件。会增长系统和数据库的压力。不适用

监听binlog日记

需要监听binlog日记的方式举行触发,当订单状态修改了,则触发冷热分离。比力适合及时性要求高的系统,这里虽然不会影响业务的响应时间。但是冷热数据分离的操作及时操作的,会给数据库造成压力。不适用,但是有用

怎么读取binlog中的内容,我们通过公司内部开发的DRC服务,这里简单看下紧张流程:
【1】在pom.xml中添加MySQL Binlog Connector Java的依赖
  1. <dependency>
  2.     <groupId>com.github.shyiko</groupId>
  3.     <artifactId>mysql-binlog-connector-java</artifactId>
  4.     <version>0.25.0</version>
  5. </dependency>
复制代码
【2】连接MySQL并读取binlog,注册了一个事件监听器来处理WriteRowsEventData事件。还可以根据需要处理其他范例的事件,例如UpdateRowsEventData和DeleteRowsEventData分场景举行业务处理。
  1. import com.github.shyiko.mysql.binlog.BinaryLogClient;
  2. import com.github.shyiko.mysql.binlog.event.*;
  3. public class BinlogReader {
  4.     public static void main(String[] args) throws Exception {
  5.         String hostname = "localhost";
  6.         int port = 3306;
  7.         String username = "root";
  8.         String password = "password";
  9.         BinaryLogClient client = new BinaryLogClient(hostname, port, username, password);
  10.         client.registerEventListener(event -> {
  11.             EventData data = event.getData();
  12.             if (data instanceof WriteRowsEventData) {
  13.                 WriteRowsEventData writeRowsEventData = (WriteRowsEventData) data;
  14.                 System.out.println("Write event: " + writeRowsEventData);
  15.                 // 处理写入事件
  16.                 handleWriteEvent(writeRowsEventData);
  17.             } else if (data instanceof UpdateRowsEventData) {
  18.                 UpdateRowsEventData updateRowsEventData = (UpdateRowsEventData) data;
  19.                 System.out.println("Update event: " + updateRowsEventData);
  20.                 // 处理更新事件
  21.                 handleUpdateEvent(updateRowsEventData);
  22.             } else if (data instanceof DeleteRowsEventData) {
  23.                 DeleteRowsEventData deleteRowsEventData = (DeleteRowsEventData) data;
  24.                 System.out.println("Delete event: " + deleteRowsEventData);
  25.                 // 处理删除事件
  26.                 handleDeleteEvent(deleteRowsEventData);
  27.             }
  28.         });
  29.         client.connect();
  30.     }
  31.     private static void handleWriteEvent(WriteRowsEventData eventData) {
  32.         // 在这里处理写入事件的业务逻辑
  33.         // 例如:将数据写入另一个数据库或消息队列
  34.     }
  35.     private static void handleUpdateEvent(UpdateRowsEventData eventData) {
  36.         // 在这里处理更新事件的业务逻辑
  37.         // 例如:更新缓存或同步到另一个系统
  38.     }
  39.     private static void handleDeleteEvent(DeleteRowsEventData eventData) {
  40.         // 在这里处理删除事件的业务逻辑
  41.         // 例如:从缓存中移除数据或同步到另一个系统
  42.     }
  43. }
复制代码
WriteRowsEventData类通常包罗以部属性:
【1】tableId:表现发生写入操作的表的ID,它通常由MySQL内部天生,用于在二进制日记中快速查找表的元数据。
【2】includedColumns:一个位图,表现哪些列包罗在写入操作中。位图中的每一位对应一个列,值为1表现该列包罗在写入操作中,值为0表现该列不包罗在写入操作中。
【3】rows:一个列表,包罗全部被写入的行的数据。每一行的数据通常以数组的形式存储,数组中的每个元素对应表中的一个列值。这些数据通常是经过编码的,需要根据表的元数据举行解码。
举个例子,如果你在MySQL中有一个表users,包罗三个列id、name和email,而且你插入了一行数据(1, 'Alice', 'alice@example.com'),那么WriteRowsEventData大概会包罗如下信息:
【1】tableId:假设为1234。
【2】includedColumns:位图表现三个列都包罗在写入操作中。
【3】rows:包罗一个数组[1, 'Alice', 'alice@example.com']。
定时使命

该方案可以根据“腾飞时间”举行区分,同时可以避免业务高峰期,而且与业务代码举行解耦。适用,联合binlog,每次获取1000条数据分批处理

我们的方案

监听binlog日记,当订单号状态发生变革,而且已过腾飞时间时,将订单号存放至MongDB中,夜间2点批量读取MongoDB中的订单号实行数据冷热数据分离业务逻辑。

   我们这里时存储在MongDB后期消耗,部分系统是通过Kafka举行消息及时消耗的,定时使命校验数据的一致性,对遗漏的数据举行校验。批量查询也是根据场景,大概需要对冷热数据库一并查询,需要封装统一的接口方法,当冷热数据存在冲突时,以热库的数据为准。
  特别场景处理逻辑:
【1】冷库数据理论上不存在更新操作,但是部分业务场景特别,需要对冷库中的数据先进性Delete操作再举行Insert操作,而不是Update操作。这里场景接入的是Kafka。
【2】当冷热库存在相同的数据时,以热库数据为准。冷库的数据来源只有热库数据同步到冷库。批量查询如果对顺序由要求时,业务代码查询到数据后,需要根据需求在内存中举行排序。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

缠丝猫

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表