大数据与云盘算——Spark的安装和设置

用户云卷云舒 · 2024-6-15 03:16:01

大数据与云盘算——Spark的安装和设置

Spark的简单介绍：

Apache Spark是一个基于内存的分布式盘算框架，它提供了高效、强大的数据处置处罚和分析本领。与传统的Hadoop MapReduce相比，Spark的主要上风在于其能够将数据集缓存在内存中，从而大大减少了磁盘I/O操作，提高了数据处置处罚速度。
Spark提供了多种编程接口，包括Scala、Java、Python和R等，同时还提供了交互式Shell，易于利用和快速调试。Spark的焦点是分布式的RDD（Resilient Distributed Datasets），它对数据进行了抽象和封装，方便了数据的处置处罚和管理。
Spark还可与多种数据存储系统集成，包括Hadoop HDFS、Apache Cassandra、Amazon S3等。同时，Spark还提供了多种高级库和工具，如Spark SQL、Spark Streaming、MLlib等，方便进行数据查询、流式处置处罚和机器学习等使命。
总之，Spark已经成为了目前最受欢迎的大数据盘算框架之一，广泛应用于数据处置处罚、机器学习、及时数据处置处罚等范畴。

安装和设置

在安装和设置Spark之前，要确保Hadoop 已经成功安装,并正常启动。没有部署好hadoop的可以查察之前的文章。
云盘算与大数据——部署Hadoop集群并运行MapReduce集群(超等详细！)
Spark安装在 HadoopMaster节点上。下面的全部操作都在HadoopMaster节点上进行。
1）解压并安装Spark
本文章所需要的spark安装包已上传到个人博客主页→资源处，有需要的小伙伴可以自行下载。
tar -zxvf spark-3.3.0-bin-hadoop3.3.2.tgz
安装包
也可以在网盘内里下载：
链接：https://pan.baidu.com/s/1aI6djw4B-3Pz_AAkDBJ5WQ?pwd=1234
利用下面的命令，解压Spark 安装包:

tar -zxvf spark-3.3.0-bin-hadoop3.3.2.tgz

复制代码

执行ls -l命令后的界面如下图所示，这些内容是Spark包罗的文件。

cd bin
./spark-shell

复制代码

执行spark-shell命令后的界面如图所示。

设置Hadoop情况变量
在Yarn上运行Spark需要设置情况变量

Vim ~/.bashrc

复制代码

修改内容后生存退出。

Source ~/.bashrc

复制代码

使设置生效。

验证spark安装
进入Spark安装主目次，执行如下命令。
1.Spark 在YARN上运行，以集群模式启动Spark应用步伐
这里指定利用 YARN 集群管理器作为主节点。
先执行这个命令：

bin/spark-submit \
> --class org.apache.spark.examples.SparkPi \
> --master yarn \
> --deploy-mode cluster \
> ./examples/jars/spark-examples_2.12-3.3.0.jar \
> 10

复制代码

bin/spark-submit：启动 Spark 应用步伐提交工具。
–class org.apache.spark.examples.SparkPi：指定要运行的 Java 类，这里利用了 Spark 官方提供的盘算 pi 数值的例子步伐 SparkPi。
–master yarn：设置 Spark 应用步伐的主节点 URL，这里指定利用 YARN 集群管理器作为主节点。
–deploy-mode cluster：指定应用步伐的部署模式。在这种模式下，Spark 驱动步伐将在 YARN 集群中启动，并和谐整个应用步伐。另一种可选的部署模式是 client 模式，其中驱动步伐会直接在提交命令的客户端上启动。
./examples/jars/spark-examples_2.12-3.3.0.jar：指定要提交的应用步伐代码包的位置和名称。在这个例子中，利用了 Spark 的示例步伐提供的 JAR 文件。
指定运行 Spark 应用步伐时要转达给它的参数。在这个例子中，将盘算 pi 数值的精度设置为 10。
启动脚本调用的是spark-submit，所以直接看bin/spark-submit脚本，跟spark-shell一样，先检查是否设置了${SPARK_HOME},然后启动spark-class，并转达了org.apache.spark.deploy.SparkSubmit作为第一个参数，然后把前面Spark-shell的参数都传给spark-class

–master 指定master节点
–class 指定执行的类
–executor-memory executor内存大小
–total-executor-cores 总的executor 数目

复制代码

不对焦点数目做限定的时候，是最快的。只有两个焦点的时候，很慢。
运行截图如下：

2.然后我们再这里设置为本地模式local并利用两个 CPU 焦点启动。

bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[2] --num-executors 2 --driver-memory 1g --executor-memory 1g --executor-cores 1 ./examples/jars/spark-examples_2.12-3.3.0.jar 10

复制代码

其中
bin/spark-submit：启动 Spark 应用步伐提交工具。
–class org.apache.spark.examples.SparkPi：指定要运行的 Java 类，这里利用了 Spark 官方提供的盘算 pi 数值的例子步伐 SparkPi。
–master local[2]：设置 Spark 应用步伐的主节点 URL，这里设置为本地模式并利用两个 CPU 焦点。实际上，Spark 可以连接到很多不同类型的集群管理器（比方 YARN、Mesos 或 Kubernetes）作为主节点。
–num-executors 2：设置 Spark 应用步伐要利用的执行器数量。在本地模式下，这通常应该小于或即是盘算机的 CPU 焦点数。
–driver-memory 1g：设置驱动步伐历程可以利用的内存量。 Spark 驱动步伐负责和谐整个应用步伐，并将结果返回给客户端或生存到磁盘中。
–executor-memory 1g：设置每个执行器历程可以利用的内存量。执行器历程是 Spark 在集群中实际执行盘算使命的工作者。
–executor-cores 1：设置每个执行器历程可以利用的 CPU 焦点数量。
./examples/jars/spark-examples_2.12-3.3.0.jar：指定要提交的应用步伐代码包的位置和名称。在这个例子中，利用了 Spark 的示例步伐提供的 JAR 文件。
我们在这里指定运行 Spark 应用步伐时要转达给它的参数。

运行正常出现的界面信息：

新建一个终端，进入到hadoop目次下的userlogs日志文件，找到了我们的spark应用结果日志文件，可以在内里找到盘算结果和相干信息。

cd $HADOOP_HOME/logs/userlogs
ls

复制代码

cd application_1668847055201_0007
ls

复制代码

查察执行结果文件信息

cat container_1668847055201_0007_01_000001/stdout

复制代码

其中盘算结果和相干运行信息如下图所示。我们可以看到Spark 应用步伐成功地盘算出了 pi 数值的近似值，并将结果打印到了控制台上。结果中的 Pi is roughly 3.1416631416631415 表示盘算出的 pi 的近似值为 3.1416631416631415。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

大数据与云盘算——Spark的安装和设置

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块