Apache Spark 3.5介绍与部署(最新版本)

打印 上一主题 下一主题

主题 986|帖子 986|积分 2958



软件概述

Apache Spark is a unified analytics engine for large-scale data processing. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs. It also supports a rich set of higher-level tools including Spark SQL for SQL and structured data processing, pandas API on Spark for pandas workloads, MLlib for machine learning, GraphX for graph processing, and Structured Streaming for incremental computation and stream processing.
Apache Spark 是一个快速的,通用的集群计算系统。它对 Java,Scala,Python 和 R 提供了的高层 API,并有一个经优化的支持通用执行图计算的引擎。它还支持一组丰富的高级工具,包括用于 SQL 和结构化数据处置惩罚的 Spark SQL,用于机器学习的 MLlib,用于图计算的 GraphX 和 Spark Streaming。
Apache Spark是一个开源的分布式计算框架,最早由加州大学伯克利分校AMPLab团队在2012年发布。它旨在提供比Hadoop MapReduce更高效、易用、机动的分布式计算引擎。Spark的核心上风在于它提供了内存计算的本领,这使得Spark在处置惩罚迭代计算和交互式查询时,具有比传统的Hadoop MapReduce更高的性能。
在大数据处置惩罚领域,Apache Hadoop是最早实现分布式存储和计算的框架之一。然而,Hadoop MapReduce模型在某些场景下并不高效,尤其是在需要迭代计算或交互式查询的场景中。因此,Spark应运而生。Spark最初由Matthias Franky、Reynold Xin等人提出,并通过UC Berkeley的AMPLab开发出来。它于2010年开源,2014年成为Apache顶级项目。
   

  • 2010年:Spark首次提出,并由AMPLab开发;
  • 2012年:Spark开源,成为一个社区驱动的项目;
  • 2014年:成为Apache顶级项目;
  • 2016年:发布Spark 2.x版本,全面支持DataFrame和Dataset API,极大提高了SQL查询的性能;
  • 2019年:Spark 3.x发布,带来对Kubernetes的支持、性能优化和更丰富的机器学习功能。
  • 2024年12月,Spark3.5.4发布,截止到现在最新版本
  官网地点: Apache Spark™ - Unified Engine for large-scale data analytics
应用场景

   批处置惩罚:Spark 的批处置惩罚本领非常强盛,适用于大规模数据集的离线处置惩罚。例如,你可以使用 Spark 对日志文件进行分析,天生报告。
  流处置惩罚:Spark Streaming 允许你实时处置惩罚数据流。你可以使用 Spark Streaming 来处置惩罚实时日志、监控系统状态等。
  机器学习:Spark 提供了 MLlib 库,支持多种机器学习算法。你可以使用 MLlib 进行分类、回归、聚类等任务。
  图计算:GraphX 是 Spark 的图计算库,支持图的构建、操作和分析。你可以使用 GraphX 进行社交网络分析、保举系统等任务。
  Spark生态圈


软件部署

参考:Linux情况下spark-3.5.1(最新版本)部署_spark3.5.1-CSDN博客

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

惊雷无声

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表