麻花痒 发表于 2024-8-4 16:51:25

Spark及时(二):StructuredStreaming编程模型

https://i-blog.csdnimg.cn/direct/b47578cf74b242a98d4cb75538d367e6.jpeg
文章目次
StructuredStreaming编程模型
一、基础语义
二、事件时间和延迟数据
三、​​​​​​​容错语义

StructuredStreaming编程模型

一、基础语义

Structured Streaming处理及时数据头脑是将及时数据看成一张没有界限的表,数据源源不停的追加到这张表中,这可以让我们能像处理批数据一样处理及时数据。如下图所示,每条及时数据到来之后都对应“无界表”中的一条数据追加到表中。
https://i-blog.csdnimg.cn/direct/897c7b6cb31c4a92b25a314d18898644.png
以WordCount为例,Spark会针对每次增量的数据进行计算,将效果输出出来,如下图所示:
https://i-blog.csdnimg.cn/direct/6896955dc97e41ee869b9b575e36c400.png

留意:StructuredStreaming并不会将每次输出的数据物化存储起来,而是每次计算都将效果状态保存起来,下个批次计算是基于当前批次数据

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: Spark及时(二):StructuredStreaming编程模型