论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
大数据
›
数据仓库与分析
›
spark 如今被淘汰了吗 有哪些公司推出替代方案 ...
spark 如今被淘汰了吗 有哪些公司推出替代方案
滴水恩情
论坛元老
|
前天 22:01
|
显示全部楼层
|
阅读模式
楼主
主题
1783
|
帖子
1783
|
积分
5349
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
Apache Spark 并未被淘汰,它依然是
大数据处理领域的焦点工具之一
,尤其在批处理、SQL分析、机器学习和复杂ETL场景中占据重要地位。但随着技术演进,部分场景确实出现了更高效的替代方案。以下是当前生态中的重要竞争技术和应用现状:
一、Spark 的焦点上风与现状
焦点上风
:
统一引擎
:支持批处理、流处理(微批)、SQL、MLlib、GraphX。
成熟生态
:与Hadoop、Hive、Delta Lake等深度集成。
企业级应用
:金融、电商、电信等行业的离线分析主力工具。
现状
:
一连更新
:Spark 3.x 系列优化性能(AQE、动态分区裁剪),并增强对 Kubernetes 的支持。
云原生适配
:AWS EMR、Azure Databricks、Google Cloud Dataproc 均提供托管 Spark 服务。
范围性
:流处理耽误较高(秒级)、资源占用大,部分场景被更轻量的技术替代。
二、替代方案及背后推动公司
1. 流处理 & 实时计算
Apache Flink
公司支持
:阿里巴巴(Blink分支)、Ververica(原Data Artisans)
上风
:真正的流处理引擎(低至毫秒级耽误)、精确一次语义(Exactly-Once)、状态管理强大。
典型用户
:Uber(实时风控)、Netflix(实时推荐)。
Apache Kafka Streams / ksqlDB
公司支持
:Confluent(Kafka 商业化公司)
上风
:轻量级流处理,直接集成 Kafka 数据管道,无需独立集群。
场景
:变乱驱动架构、实时数据转换。
2. 交互式查询 & SQL加速
Presto / Trino
公司支持
:Starburst(Trino 商业化公司,原 PrestoSQL 分支)
上风
:秒级响应的分布式 SQL 引擎,适合即席查询。
典型用户
:Facebook(内部 Presto 起源)、Airbnb。
ClickHouse
公司支持
:ClickHouse Inc.
上风
:列式存储 OLAP 数据库,单表查询速度极快,资源占用低。
场景
:日志分析、用户行为分析。
3. 机器学习 & 分布式计算
Ray
公司支持
:Anyscale(由 UC Berkeley RISELab 团队创立)
上风
:分布式计算框架,专注 AI/ML 场景,支持超参优化、强化学习。
典型用户
:OpenAI(训练模子)、蚂蚁集团。
Dask
开源社区
:NVIDIA、Coiled(商业化支持)
上风
:轻量级 Python 并行计算库,无缝衔接 Pandas/Numpy。
场景
:单机到中小集群的 Python 数据分析。
4. 统一批流处理
Apache Beam
公司支持
:Google(原创)、多家云厂商支持
上风
:统一编程模子,支持 Flink、Spark、Google Dataflow 等多后端。
场景
:跨云/混合云的数据流水线。
5. 云原生存算引擎
Snowflake
公司支持
:Snowflake Inc.
上风
:完全托管的云数仓,分离存储与计算,主动弹性伸缩。
场景
:企业级数据分析,替代 Spark SQL + HDFS 架构。
AWS Glue / Azure Synapse
公司支持
:AWS、Microsoft
上风
:全托管无服务器 ETL 服务,深度集成云存储(S3、ADLS)。
场景
:云上数据湖的主动化处理。
三、Spark 与替代技术的场景对比
场景
Spark 适用性
推荐替代方案
离线大规模批处理
★★★★★(主力)无直接替代
低耽误流处理
★★☆(微批模式耽误高)Flink、Kafka Streams
交互式 SQL 查询
★★★(需优化资源配置)Trino、ClickHouse
Python 轻量级计算
★★☆(架构过重)Dask、Ray
云原生 Serverless ETL
★★☆(需集群管理)AWS Glue、Snowflake
机器学习分布式训练
★★★(MLlib 功能有限)Ray、PyTorch Distributed
四、企业选择建议
继承利用 Spark 的场景
:
已有 Hadoop 生态的离线数据仓库。
必要统一批流处理的复杂业务逻辑(如历史数据 + 实时数据团结分析)。
依赖 MLlib 或 GraphX 的机器学习/图计算场景。
考虑替代技术的场景
:
实时性要求高
→ Flink/Kafka Streams。
即席查询频繁
→ Trino/ClickHouse。
全托管云服务
→ Snowflake/AWS Glue。
Python 轻量化计算
→ Dask/Ray。
五、将来趋势
Spark 的进化
:通过 Spark on Kubernetes、Photon 实行引擎优化性能,向云原生靠拢。
替代技术融合
:Flink 逐步增强批处理能力,Snowflake 支持流式摄入,边界逐渐含糊。
Serverless 化
:云厂商推动无服务器化数据处理(如 BigQuery、Redshift Serverless),进一步降低运维本钱。
总结
:Spark 并未被淘汰,但在特定领域面对挑战。企业应根据业务需求选择技术栈,
混合利用 Spark 与替代方案
(如 Spark 批处理 + Flink 流处理)是当前主流策略。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
滴水恩情
论坛元老
这个人很懒什么都没写!
楼主热帖
体系集成商重返黄金年代
SFSafariViewController 加载的网页与 ...
ubuntu 20.04 安装好搜狗输入法无法输 ...
聊聊 C# 和 C++ 中的 泛型模板 底层玩 ...
Linux 进程概念 (上)
nsenter命令简单介绍
Kali Linux全网最细安装教程
未来数据库需要关心的硬核创新 ...
GIS数据获取:景象数据免费下载网站 ...
Spark快速上手(2)Spark核心编程-RDD简 ...
标签云
渠道
国产数据库
集成商
AI
运维
CIO
存储
服务器
快速回复
返回顶部
返回列表