论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com技术社区
»
论坛
›
数据库
›
SQL-Server
›
【流计算】流计算概论
【流计算】流计算概论
泉缘泉
论坛元老
|
2024-9-29 13:15:52
|
显示全部楼层
|
阅读模式
楼主
主题
1709
|
帖子
1709
|
积分
5137
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
媒介
作者在之前写过一个大数据的专栏,包含GFS、BigTable、MapReduce、HDFS、Hadoop、LSM树、HBase、Spark,专栏地点:
https://blog.csdn.net/joker_zjn/category_12631789.html?fromshare=blogcolumn&sharetype=blogcolumn&sharerId=12631789&sharerefer=PC&sharesource=Joker_ZJN&sharefrom=from_link
流计算和大数据是精密相关的,现在接那个大数据专栏,继承向下写流计算专栏。这是第一篇。
目次
1.什么是流计算
2.流计算的架构
1.什么是流计算
流计算,就是对流式数据的计算,是专门用来处置惩罚流式数据的。因此在聊流计算之前,我们要先明确什么是静态数据和流式数据。
静态数据:
静态数据不是实时产生的,是有肯定历史的数据,静态数据一样平常是用来举行一些统计分析的,比如数据仓库中的数据就是典范的静态数据。再比如MapReduce做统计分析,存在HDFS中的数据也是静态数据。
流式数据:
流式数据其实就是动态数据,是实时产生的,其应用场景对实时性要求很高,基本上是要求必要对其做实时处置惩罚的数据。比如:
物联网中的实时监测设备,诸如烟感、PM2.5监测、安防等设备,要对实时的流式数据做实时的分析,从而判定是否触发报警之类的操作。
购物网站上的“大概感兴趣”的推荐,就是基于用户实时点击欣赏产生的流式数据来给客户举行推荐的。
上面这样说只是一方面,其实仔细思索就会发现静态数据、动态数据之间没有很明确的边界,静态数据也会有新的数据进来,流式数据的业务场景中也有对历史数据计算的需求。
其实从业务场景上能更好的区分是不是流计算的场景,流计算的场景一句话就能概括:
大量数据实时产生,涌过来,从这些大量实时数据中计算出实时结果。
流式数据的特性:
快速连续的到达
泉源众多、格式复杂
数据量大,不太关注存储,一旦经过处置惩罚后,要么被抛弃,要么被归档存储。
2.流计算的架构
流数据的量大、产生的速度快、泉源和格式杂,这些特点都是会拉低计算速度的点,所以流计算的核心就是要就是要稳定可靠高效的处置惩罚流式数据。市面上的各种流计算框架针对这些核心问题,各自给出了自己的解法,常用的流计算框架:
twitter storm
spark strem
流计算是整个大系统的一环,接下来我们看看引入流计算的系统架构一样平常长什么样子。
以flink为例,展示一下游计算常见架构:
观察上面系统,可以发现引入流计算的系统架构一样平常有以下部分构成:
数据收罗
数据传输
数据处置惩罚
数据存储
数据展现
数据收罗:
传感器、各个服务模块上的各个日志代理等。
数据收罗在软件层面无非就是从欣赏器、手机终端等设备将数据发给收罗服务器。
收罗服务器要吸取数据,在性能上要有所考虑,关于性能无非以下点:
吞吐量(TPS),要在IO模型上有所决议,阻塞?非阻塞
时延,偶然延要求时首先要报时延,再说拉高吞吐量的事儿
TCP毗连,当有大量毗连必要维持时,用非阻塞IO服务器,如netty;当毗连数目较少时,用长毗连和毗连池
数据传输:
负责数据的流转,数据总线,一样平常用MQ来实现,数据传输要关注的点:
吞吐量,流式数据的量大,吞吐量肯定要跟上,不能造成数据积存,数据才有实时性。
可靠性,可靠性肯定要跟上,数据尽大概不要丢。
数据处置惩罚:
流计算的核心,也是流计算框架主要工作的环节,用计算引擎来对流举行:
转化、清洗、转换
计数、求和、均值、标准差、极值、聚合、关联、直方图等
数据存储:
根据自己的业务场景来决定计算出来的结果是否必要存储?假如要存储就要考虑自己业务场景的需求:
数据量大不大?
时延要求怎样?
吞吐量大不大?
然厥后选择对应的存储介质,内存?关系型数据库?非关系型数据库?分布式文件系统?等等等等
3.常见流计算场景
以下是流式计算的一些典范应用场景:
实时数据分析
金融生意业务:实时监测市场波动、生意业务异常和欺诈检测。
物联网(IoT):实时处置惩罚传感器数据,监控设备状态,触发警报。
日志处置惩罚与监控
系统监控:实时监控服务器日志,快速发现并处置惩罚系统故障。
应用性能管理(APM):实时分析应用日志,优化性能瓶颈。
社交媒体分析
趋势分析:实时分析社交媒体上的热点话题和用户情绪。
推荐系统:根据用户实时行为更新推荐内容。
网络安全
入侵检测:实时分析网络流量,识别潜伏的安全威胁。
异常检测:监控网络运动,实时发现异常行为。
电子商务
库存管理:实时更新库存信息,避免超卖情况。
订单处置惩罚:实时跟踪订单状态,进步客户满足度。
智能制造
生产监控:实时监控生产线状态,进步生产服从。
预测性维护:通过分析呆板运行数据,提前预测并预防故障。
交通与物流
交通管理:实时分析交通流量,优化交通讯号控制。
物流追踪:实时更新货物位置,进步物流服从。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
泉缘泉
论坛元老
这个人很懒什么都没写!
楼主热帖
华为一镜到底主题__荣耀30系列安装教程 ...
「Docker入门指北」容器很难理解?带你 ...
日志模块
数据资产为王,如何解析企业数字化转型 ...
信创环境下分布式文件存储MinIO集群部 ...
28基于java的简单酒店数据管理 ...
xss-labs靶场
Vulnhub之M87靶机详细测试过程(不同提 ...
解决NuGet加载或下载资源慢的问题 ...
前端后端的爱恨情仇
标签云
AI
运维
CIO
存储
服务器
浏览过的版块
网络安全
CRM
物联网
快速回复
返回顶部
返回列表