宝塔山 发表于 2024-8-23 15:10:25

hadoop集成spark(spark on yarn)

hadoop集成spark(spark on yarn)

在hadoop搭建完成的条件下,集成spark:hadoop搭建请参考hadoop集群搭建
下载spark软件包

有许多种类spark的包,因为我是要集成到hadoop内里所以我选择spark-3.4.3-bin-hadoop3-scala2.13.tgz (集成hadoop自带scala)
# 在master节点下载
wget https://downloads.apache.org/spark/spark-3.4.3/spark-3.4.3-bin-hadoop3-scala2.13.tgz
# 解压
tar -zxvf spark-3.4.3-bin-hadoop3-scala2.13.tgz
# 重命名 (原始包名太长了)
mv spark-3.4.3-bin-hadoop3-scala2.13 spark
https://i-blog.csdnimg.cn/direct/a9e5ea92a2394e22b1e1b0b4206ede2e.png
spark文件设置

#spark配置文件的路径
cd /home/ldsx/down_load/spark_data/spark/conf
spark-env.sh

设置spark自用环境变量
可以自己创建也可以copy,因为template就是空的
cp spark-env.sh.template spark-env.sh
vim spark-env.sh
#添加一下内容 换成自己的部署的实际信息即可
export JAVA_HOME=/home/ldsx/down_load/jdk_data_new/jdk1.8.0_411
export SPARK_MASTER_IP=192.168.0.76
export HADOOP_HOME=/home/ldsx/down_load/hadoop_data/hadoop-3.2.4
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
workers

低版本叫slaves,高版本为workers
设置工作呆板
cp workers.templateworkers
vim workers
# 添加需要作为spark计算的机器
master
hadoop01
环境变量设置

sudo vim /etc/profile.d/my_env.sh
#配置spark路径方便使用
#spark_home
export SPARK_HOME=/home/ldsx/down_load/spark_data/spark
export PATH=$PATH:$SPARK_HOME/bin

source/etc/profile.d/my_env.sh
https://i-blog.csdnimg.cn/direct/2398cdcf31744fa8980b0a5ef246e6e4.png
发送spark到其余呆板

#因为做了免密直接传送
scp -r spark包 节点机器:相同路径
#我的matser 跟节点的目录结构都是完全一致的
scp -r spark_data hadoop01:/home/ldsx/down_load
启动spark

#因为hadoop里面也有start-all.sh,防止冲突直接进入spark目录下启动
cd /home/ldsx/down_load/spark_data/spark/sbin
./start-all.sh
8080:master默认Web端口
7077:master通信端口
https://i-blog.csdnimg.cn/direct/5042ad19fba1463886cece094b382022.png
master下历程,因为master设置成了worker机所以会同时存在Master,Worker历程
https://i-blog.csdnimg.cn/direct/e29f74f9ac8c4f118b265a1a823e33d2.png
https://i-blog.csdnimg.cn/direct/a6baea9d6f694a5497f3f9851fe51609.png
使用spark-submit启动一个test.py的使命后查看yarn与spark的UI
yarn界面
https://i-blog.csdnimg.cn/direct/f779ffea25814be8852ad28f98bc4af0.png
spark界面
https://i-blog.csdnimg.cn/direct/5442095be42247e89deb0cd061a5687f.png

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: hadoop集成spark(spark on yarn)