Flink CDC 5种启动模式详解:Initial、Specific Offset、Latest Offset、Ea ...

打印 上一主题 下一主题

主题 1013|帖子 1013|积分 3039

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
Apache Flink 的 Change Data Capture (CDC) 功能允许用户构建数据管道,以捕获和处置惩罚来自数据库的更改。当使用 CDC 毗连器(如 MySQL CDC 或 PostgreSQL CDC)创建一个 Flink CDC 作业时,可以指定差别的启动模式来控制如何开始读取变更日记。以下是几种常见的启动模式及其特性:

  • Initial (初始全量加载 + 增量更新)

    • 在这种模式下,Flink CDC 会首先进行一次快照读取,即从源数据库中读取所有现有数据(全量加载)。一旦全量加载完成,它将切换到增量更新模式,继续监听并处置惩罚之后发生的任何更改。
    • 这种模式适合初次同步或者必要确保数据完备性的场景。

  • Specific Offset (特定偏移量)

    • 用户可以通过提供特定的日记文件名和位置(offset),让 Flink CDC 从停止的地方继续读取。这对于恢复因故障而停止的使命非常有用。
    • 它要求你确切知道上一次成功处置惩罚的位置,这通常是在使命失败或手动制止后记录下来的。

  • Latest Offset (最新偏移量)

    • 此模式会让 Flink CDC 从最新的日记位置开始读取,意味着它只会捕获自配置此模式以来的所有新变更,不会包罗任何历史数据。
    • 这对于只必要关注最近变化的应用程序来说是抱负的,因为它制止了不必要的全量扫描。

  • Earliest Offset (最早偏移量)

    • 类似于 Initial 模式,但差别之处在于它不会实行全量加载,而是直接从最早的可用日记位置开始读取变更日记。
    • 如果想要从尽可能早的时间点开始获取变更而不关心当前状态,则可以选择此模式。

  • Timestamp (时间戳)

    • 有些 CDC 毗连器支持根据时间戳来定义起始点。这意味着你可以指定一个已往的时间点,Flink CDC 将实验找到最接近该时间点的日记位置,并从此处开始读取。
    • 这对于必要基于某个详细时间点的数据快照的应用场景很有帮助。

每种启动模式都有其适用的场景,选择哪种取决于你的业务需求以及对数据同等性和完备性要求。比方,在初次设置数据管道时可能更倾向于使用 Initial 模式;而在日常操作中,如果希望最小化延迟并且只关心最新的变更,那么 Latest Offset 可能更适合。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

天津储鑫盛钢材现货供应商

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表