泉缘泉 发表于 2024-9-29 13:15:52

【流计算】流计算概论

媒介
作者在之前写过一个大数据的专栏,包含GFS、BigTable、MapReduce、HDFS、Hadoop、LSM树、HBase、Spark,专栏地点:
https://blog.csdn.net/joker_zjn/category_12631789.html?fromshare=blogcolumn&sharetype=blogcolumn&sharerId=12631789&sharerefer=PC&sharesource=Joker_ZJN&sharefrom=from_link
流计算和大数据是精密相关的,现在接那个大数据专栏,继承向下写流计算专栏。这是第一篇。
目次
1.什么是流计算
2.流计算的架构

1.什么是流计算

流计算,就是对流式数据的计算,是专门用来处置惩罚流式数据的。因此在聊流计算之前,我们要先明确什么是静态数据和流式数据。
静态数据:
静态数据不是实时产生的,是有肯定历史的数据,静态数据一样平常是用来举行一些统计分析的,比如数据仓库中的数据就是典范的静态数据。再比如MapReduce做统计分析,存在HDFS中的数据也是静态数据。
流式数据:
流式数据其实就是动态数据,是实时产生的,其应用场景对实时性要求很高,基本上是要求必要对其做实时处置惩罚的数据。比如:


[*] 物联网中的实时监测设备,诸如烟感、PM2.5监测、安防等设备,要对实时的流式数据做实时的分析,从而判定是否触发报警之类的操作。
[*] 购物网站上的“大概感兴趣”的推荐,就是基于用户实时点击欣赏产生的流式数据来给客户举行推荐的。
上面这样说只是一方面,其实仔细思索就会发现静态数据、动态数据之间没有很明确的边界,静态数据也会有新的数据进来,流式数据的业务场景中也有对历史数据计算的需求。
其实从业务场景上能更好的区分是不是流计算的场景,流计算的场景一句话就能概括:
大量数据实时产生,涌过来,从这些大量实时数据中计算出实时结果。
流式数据的特性:


[*] 快速连续的到达
[*] 泉源众多、格式复杂
[*] 数据量大,不太关注存储,一旦经过处置惩罚后,要么被抛弃,要么被归档存储。
2.流计算的架构

流数据的量大、产生的速度快、泉源和格式杂,这些特点都是会拉低计算速度的点,所以流计算的核心就是要就是要稳定可靠高效的处置惩罚流式数据。市面上的各种流计算框架针对这些核心问题,各自给出了自己的解法,常用的流计算框架:


[*] twitter storm
[*] spark strem
流计算是整个大系统的一环,接下来我们看看引入流计算的系统架构一样平常长什么样子。
以flink为例,展示一下游计算常见架构:
https://i-blog.csdnimg.cn/direct/f6ce3a081375408784eff8de40c6aae8.png
观察上面系统,可以发现引入流计算的系统架构一样平常有以下部分构成:
https://i-blog.csdnimg.cn/direct/114be3e65a4f49bda892307335fbbfe6.png


[*] 数据收罗
[*] 数据传输
[*] 数据处置惩罚
[*] 数据存储
[*] 数据展现
数据收罗:
传感器、各个服务模块上的各个日志代理等。
数据收罗在软件层面无非就是从欣赏器、手机终端等设备将数据发给收罗服务器。
收罗服务器要吸取数据,在性能上要有所考虑,关于性能无非以下点:


[*] 吞吐量(TPS),要在IO模型上有所决议,阻塞?非阻塞
[*] 时延,偶然延要求时首先要报时延,再说拉高吞吐量的事儿
[*] TCP毗连,当有大量毗连必要维持时,用非阻塞IO服务器,如netty;当毗连数目较少时,用长毗连和毗连池
数据传输:
负责数据的流转,数据总线,一样平常用MQ来实现,数据传输要关注的点:


[*]吞吐量,流式数据的量大,吞吐量肯定要跟上,不能造成数据积存,数据才有实时性。
[*]可靠性,可靠性肯定要跟上,数据尽大概不要丢。
数据处置惩罚:
流计算的核心,也是流计算框架主要工作的环节,用计算引擎来对流举行:


[*] 转化、清洗、转换
[*] 计数、求和、均值、标准差、极值、聚合、关联、直方图等
数据存储:
根据自己的业务场景来决定计算出来的结果是否必要存储?假如要存储就要考虑自己业务场景的需求:


[*] 数据量大不大?
[*] 时延要求怎样?
[*] 吞吐量大不大?
然厥后选择对应的存储介质,内存?关系型数据库?非关系型数据库?分布式文件系统?等等等等
3.常见流计算场景

以下是流式计算的一些典范应用场景:


[*]实时数据分析

[*] 金融生意业务:实时监测市场波动、生意业务异常和欺诈检测。
[*]物联网(IoT):实时处置惩罚传感器数据,监控设备状态,触发警报。

[*]日志处置惩罚与监控

[*]系统监控:实时监控服务器日志,快速发现并处置惩罚系统故障。
[*]应用性能管理(APM):实时分析应用日志,优化性能瓶颈。

[*]社交媒体分析

[*]趋势分析:实时分析社交媒体上的热点话题和用户情绪。
[*]推荐系统:根据用户实时行为更新推荐内容。

[*]网络安全

[*]入侵检测:实时分析网络流量,识别潜伏的安全威胁。
[*]异常检测:监控网络运动,实时发现异常行为。

[*]电子商务

[*]库存管理:实时更新库存信息,避免超卖情况。
[*]订单处置惩罚:实时跟踪订单状态,进步客户满足度。

[*]智能制造

[*]生产监控:实时监控生产线状态,进步生产服从。
[*]预测性维护:通过分析呆板运行数据,提前预测并预防故障。

[*]交通与物流

[*]交通管理:实时分析交通流量,优化交通讯号控制。
[*]物流追踪:实时更新货物位置,进步物流服从。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 【流计算】流计算概论