hadoop集成spark(spark on yarn)

打印 上一主题 下一主题

主题 510|帖子 510|积分 1530

hadoop集成spark(spark on yarn)

在hadoop搭建完成的条件下,集成spark:hadoop搭建请参考hadoop集群搭建
下载spark软件包

有许多种类spark的包,因为我是要集成到hadoop内里所以我选择spark-3.4.3-bin-hadoop3-scala2.13.tgz (集成hadoop自带scala)
  1. # 在master节点下载
  2. wget https://downloads.apache.org/spark/spark-3.4.3/spark-3.4.3-bin-hadoop3-scala2.13.tgz
  3. # 解压
  4. tar -zxvf spark-3.4.3-bin-hadoop3-scala2.13.tgz
  5. # 重命名 (原始包名太长了)
  6. mv spark-3.4.3-bin-hadoop3-scala2.13 spark
复制代码

spark文件设置

  1. #spark配置文件的路径
  2. cd /home/ldsx/down_load/spark_data/spark/conf
复制代码
spark-env.sh

设置spark自用环境变量
可以自己创建也可以copy,因为template就是空的
  1. cp spark-env.sh.template spark-env.sh
  2. vim spark-env.sh
  3. #添加一下内容 换成自己的部署的实际信息即可
  4. export JAVA_HOME=/home/ldsx/down_load/jdk_data_new/jdk1.8.0_411
  5. export SPARK_MASTER_IP=192.168.0.76
  6. export HADOOP_HOME=/home/ldsx/down_load/hadoop_data/hadoop-3.2.4
  7. export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
复制代码
workers

低版本叫slaves,高版本为workers
设置工作呆板
  1. cp workers.template  workers
  2. vim workers
  3. # 添加需要作为spark计算的机器
  4. master
  5. hadoop01
复制代码
环境变量设置

  1. sudo vim /etc/profile.d/my_env.sh
  2. #配置spark路径方便使用
  3. #spark_home
  4. export SPARK_HOME=/home/ldsx/down_load/spark_data/spark
  5. export PATH=$PATH:$SPARK_HOME/bin
  6. source  /etc/profile.d/my_env.sh
复制代码

发送spark到其余呆板

  1. #因为做了免密直接传送
  2. scp -r spark包 节点机器:相同路径
  3. #我的matser 跟节点的目录结构都是完全一致的
  4. scp -r spark_data hadoop01:/home/ldsx/down_load
复制代码
启动spark

  1. #因为hadoop里面也有start-all.sh,防止冲突直接进入spark目录下启动
  2. cd /home/ldsx/down_load/spark_data/spark/sbin
  3. ./start-all.sh
复制代码
8080:master默认Web端口
7077:master通信端口

master下历程,因为master设置成了worker机所以会同时存在Master,Worker历程


使用spark-submit启动一个test.py的使命后查看yarn与spark的UI
yarn界面

spark界面


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

宝塔山

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表