一给 发表于 2024-8-15 06:36:29

Flink CDC+Kafka 加快业务实时化

择要:本文整理自阿里巴巴开辟工程师,Apache Flink Committer 任庆盛,在 9 月 24 日 Apache Flink Meetup 的分享。重要内容包括:
[*]Flink CDC 技术对比与分析
[*]Flink + Kafka 实时数据集成方案
[*]Demo:Flink+Kafka 实现 CDC 数据的实时集成和实时分析
一、Flink CDC 技术对比与分析

1.1. 变动数据捕获(CDC)技术

https://i-blog.csdnimg.cn/blog_migrate/e1366b2c6e35121218eb25c41ca323c7.png
广义概念上,可以或许捕获数据变动的技术统称为 CDC(Change Data Capture)。通常我们说的 CDC 重要面向数据库的变动,是一种用于捕获数据库中数据变革的技术。
CDC 的重要应用有三个方面:


[*]数据同步,通过 CDC 将数据同步到其他存储位置来进行异地灾备或备份。
[*]数据分发,通过 CDC 将数据从一个数据源抽取出来后分发给下游各个业务方做数据处理和变动。
[*]数据收罗,使用 CDC 将源端数据库中的数据读取出来后,经过 ETL 写入数据仓库或数据湖。
https://i-blog.csdnimg.cn/blog_migrate/cf58f30ba76e2437ef57c1fc3a187778.png
按照实现机制,CDC 可以分为两种范例:基于查询和基于日记的 CDC。基于查询的 CDC 通过定时调治离线任务的方式实现,一般为批处理模式,无法保证数据的实时性,数据一致性也会受到影响。基于日记的 CDC 通过实时消费数据库里的日记变革实现,如通过连接器直接读取 MySQL 的 binlog 捕获变动。这种流处理模式可以做到低耽误,因此更好地保障了数据的实时性和一致性。
1.2. Flink CDC 的技术优势

https://i-blog.csdnimg.cn/blog_migrate/fe1d5319f3f9a7df5ac53646bbe74b6d.png
在上图中,我们比较了几种常见的 CDC 方案。相比于其他方案,Flink CDC 在功能上集成了很多优势:


[*]在实现机制方面&#x

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: Flink CDC+Kafka 加快业务实时化