ToB企服应用市场:ToB评测及商务社交产业平台

标题: 47、Flink 的 Data Source 原理 [打印本页]

作者: 用户云卷云舒    时间: 2024-6-15 00:46
标题: 47、Flink 的 Data Source 原理
1.Data Source 原理

a)焦点组件

一个数据 source 包括三个焦点组件:分片(Splits)分片枚举器(SplitEnumerator) 以及 源阅读器(SourceReader)

Source 类作为API入口,将上述三个组件结合在了一起

b)流处理和批处理的同一

Data Source API 以同一的方式对无界流数据和有界批数据举行处理。
流处理和批处理区别很小:在有界/批处理情况中,枚举器天生固定命量的分片,而且每个分片都必须是有限的;但在无界流的情况下,分片巨细可以不是有限的,大概枚举器将不断天生新的分片。
c)示例

展示在流和批处理情况下 data source 组件如何交互;以下内容并没有准确地描述出 Kafka 和 File source 的工作方式。
有界 File Source
Source 包含待读取目次的 URI/路径(Path),以及一个界说了如何对文件举行分析的格式(Format)

无界 Streaming File Source
与**有界 File Source **类似,除了 SplitEnumerator 从不会使用 NoMoreSplits 来响应 SourceReader 的请求,并且还会定期列出给定 URI/路径下的文件来查抄是否有新文件;一旦发现新文件,则天生对应的新分片,并将它们分配给空闲的 SourceReader。
无界 Streaming Kafka Source
Source 将具有 Kafka Topic(亦大概一系列 Topics 大概通过正则表达式匹配的 Topic)以及一个 分析器(Deserializer) 来分析记载(record)。

有界 Kafka Source
每个分片(Topic Partition)都会有一个预界说的结束偏移量,其他与上述类似;一旦 SourceReader 读取到分片的结束偏移量,整个分片的读取就会结束。而一旦所有所分配的分片读取结束,SourceReader 也就终止使命了。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4