魏晓东 发表于 前天 00:42

Spark-Streaming简介 核心编程

1. Spark-Streaming概述
界说:用于处置惩罚流式数据,支持多种数据输入源,可运用Spark原语运算,结果能保存于多处。它以离散化流(DStream)为抽象表示,是RDD在实时数据处置惩罚场景的封装。
特点:易用,支持多语言编写实时计算程序;容错,可恢复丢失数据;易整合,能在Spark上运行,结合离线处置惩罚实现交互式查询。
2. Spark-Streaming架构:包含背压机制,1.5版本前靠设置静态参数限定Receiver数据吸收速率,易导致资源利用率低。1.5版本起可动态调解,通过“spark.streaming.backpressure.enabled”控制,默认不启用。
3. DStream实操 - WordCount案例
https://i-blog.csdnimg.cn/direct/4589ab26ec2a46418fdd0acc59e76092.png
https://i-blog.csdnimg.cn/direct/ed4f9b442382484898258afa994b61b8.png 
https://i-blog.csdnimg.cn/direct/b6ff7d21d55d4db2ae63f2fffa6f1fdc.png 
https://i-blog.csdnimg.cn/direct/c436ff9937974404bec59cb4e55eb534.png 
https://i-blog.csdnimg.cn/direct/317937c08c8145ba96bbf2288835d6ff.png 
https://i-blog.csdnimg.cn/direct/67325572ef5e4f49845fa04a422bd92c.png 
1. RDD队列创建DStream:可利用 ssc.queueStream(queueOfRDDs) 创建DStream,队列中的每个RDD都会被看成一个DStream处置惩罚。
https://i-blog.csdnimg.cn/direct/808d072ac30142d4a0d8fd44fb5d3557.png
 https://i-blog.csdnimg.cn/direct/ab9a5b5750da42ad82c230b1fe544648.png
https://i-blog.csdnimg.cn/direct/d28ca791b184423f94560ae000bf4af1.png
https://i-blog.csdnimg.cn/direct/5d789253d9744feebb514d2c7883d89f.png 
 2. 自界说数据源创建DStream:自界说数据源需继承Receiver并实现 onStart 、 onStop 方法。
https://i-blog.csdnimg.cn/direct/3a878673e94d4e22808ed79ff8a16e50.png
https://i-blog.csdnimg.cn/direct/5faee69d3763499196dff359d7581d87.png 
https://i-blog.csdnimg.cn/direct/ec33d3d5aeff467e913cfb4e4874ab7b.png 
https://i-blog.csdnimg.cn/direct/736b85b3673043f7a1eeca5417baed7a.png 
https://i-blog.csdnimg.cn/direct/8db93fc46a6446fabcd1cd294b3d6034.png 
https://i-blog.csdnimg.cn/direct/4d80b9341a6141e3a66e0ad36fd5edc4.png 
 
 
 
 

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: Spark-Streaming简介 核心编程