(七)Flink Watermark

打印 上一主题 下一主题

主题 554|帖子 554|积分 1662

Flink 的 Watermark 是用来标识数据流中的一个时间点。Watermark 的计划是为相识决乱序数据处理的题目,尤其是涉及到多个分区的 Kafka 消耗者时。在 Watermark 的作用下,即使某些数据出现了耽误到达的情况,也不会导致整个处理流程的中断。别的,Watermark 还能防止过期的数据被处理,从而提高了数据处理的准确性。
详细来说,Watermark 有以下两个主要的功能:


  • 办理乱序题目:通过设置 Watermark,可以确保处理过程不会由于等待数据而无穷期地阻塞。如许,即使在数据出现耽误的情况下,也能及时处理后续的数据,而不是等到所有的数据都到达之后再开始处理。

  • 允许一定程度的耽误:Watermark 可以在一定程度上担当数据的耽误到达,但同时会有一个设定的最大耽误时间。当数据流中的变乱时间戳大于等于水印加上这个最大耽误时间时,就会触发相应的盘算操作。如允许以制止因长时间的耽误而导致的不须要的盘算开销。
目次
Watermark 计谋简介
Watermark 生成计谋
1、内置计谋
2、自定义 Watermark 计谋
处理空闲数据源
Watermark 计谋应用
总结


Watermark 计谋简介

为了使用变乱时间语义,Flink 应用程序需要知道变乱时间戳对应的字段,通常通过使用 TimestampAssigner API 从元素中的某个字段去访问/提取时间戳。时间戳的分配与 Watermark 的生成是齐头并进的,其可以告诉 Flink 应用程序变乱时间的进度。可以通过指定 WatermarkGenerator 来配置 Watermark 的生成方式。
使用 Flink API 时需要设置一个同时包罗 TimestampAssigner 和 WatermarkGenerator 的 Watermark

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

汕尾海湾

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表