论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
大数据
›
数据仓库与分析
›
Spark环境搭建
Spark环境搭建
莫张周刘王
金牌会员
|
2025-1-16 12:11:17
|
显示全部楼层
|
阅读模式
楼主
主题
920
|
帖子
920
|
积分
2760
一、前期准备工作
下载并安装VMware Workstation。
下载CentOS 7的ISO镜像文件。
下载jdk安装包
下载scala安装包
下载Spark安装包。
下载并安装Xshell
下载地址
CentOS
阿里巴巴开源镜像站-OPSX镜像站-阿里云开发者社区 (aliyun.com)
Spark
Apache Spark™ - Unified Engine for large-scale data analytics
jdk
JDK下载 - 编程宝库 (codebaoku.com)
scala
The Scala Programming Language (scala-lang.org)
Xshell
Xshell 下载 - NetSarang Website
二、开始搭建虚拟机
1.准备三台虚拟机
这里位置只管换成其他盘!!。
启动,选择第二个。
设置时间,设置好点完成
接受答应,完成
之后,中文,汉语,位置关闭,时区上海,名称和密码本身设一个,末了开始使用
然后关机,准备进行克隆,克隆出另外两台。
克隆前需要关机,不是挂起,是关机。
右键点击您要克隆的虚拟机,选择“管理” > “克隆”。
在弹出的“克隆虚拟机向导”中,选择“创建完备克隆”或“创建链接克隆”。完备克隆将创建一个独立于原始虚拟机的新虚拟机,而链接克隆将共享原始虚拟机的磁盘文件,以节流磁盘空间。这里选择“创建完备虚拟机”
确认无误后点击“完成”。
三、完成以上,前期准备完成,得到三台虚拟机
下面内容,用我之前搭建好的node1,node2,node3的进行参考
一、准备
1、分别对三台虚拟机进行开机,右键,打开终端。(三台一台台开会快些,一起开可能会卡)
ip addr
查看ip,得到三台虚拟机的ip,打开记事本,记录下这三台ip后续会用到。
2、打开Xshell,与这三台进行毗连(之后操作在Xshell中进行,会方便快捷一些。)
毗连方法:略
3.分别对三台虚拟机的主机名进行修改,node1,node2,node3
#查询主机名称
hostname
#修改主机名 hostnamectl set-hostname +主机名
hostnamectl set-hostname node2
4.设置静态IP
vi /etc/sysconfig/network-scripts/ifcfg-ens33
ifcfg-什么根据本身电脑来,有些不是ens33,i编辑模式,编辑完esc退出编辑,:wq保存并退出
改错了就不保存退出。粘贴到终端。
三个都要这么来一遍。
5.设置主机映射
三个都要这么做,保存退出
vi /etc/hosts
#以下内容复制到末端
192.168.117.132 node1
192.168.117.133 node2
192.168.117.135 node3
6.关闭防火墙,三台都关
#查看防火墙状态
sudo systemctl status firewalld
#临时关闭防火墙
sudo systemctl stop firewalld
#永世关闭防火墙
sudo systemctl disable firewalld
7.重启三台虚拟机
reboot
重启完ping百度试一下,看看网络是否设置成功。三台都要检查。(插一句,每进行完一个操作就检查一下,看是否是有问题,有问题赶紧办理。办理完在进行下一步)
ping www.baidu.com
停不下来的话,ctrl+c克制ping操作
8.设置各节点SSH免密码登录:
分别在3个节点实行以下下令,天生密钥文件。三次回车
ssh-keygen
9.分别在3个节点实行以下下令,将自身的公钥信息复制并追加到全部节点的授权文件authorized_keys中
ssh-copy-id node01
ssh-copy-id node02
ssh-copy-id node03
实行过程需要输入密码
报错,就su root加权限
完成之后reboot重启
10.检查!!在各节点用以下下令测试SSH免密登录,三台都要检查
ssh node01
ssh node02
ssh node03
二、spark集群的部署
1.创建三个文件夹
mkdir -p /export/servers
data放置相干数据文件
servers软件安装目录
software放置软件包
2.以下下令是下载一个rz 的插件,下载好后在下令行里输入rz 便会跳出一个界面框,可以选择你要从windows传入虚拟机的文件。三台都要装
yum install lrzszcd -y
3.卸载自带jdk
#先查看是否有
java -version
#之后看都有哪些
rpm -qa | grep java
#一条条卸载(卸载带有openjdk的)
rpm -e --nodeps+
#验证
java -version
4.上传安装包,解压,改名称
切换目录到software下,cd /export/software
#上传(出现闪退乱码是不对的,重新上传即可)
rz
#切换到解压安装后的路径
cd /export/servers/
#解压安装包到/export/servers/ 路径下(版本名字改成本身的)
tar -zxvf spark-3.5.2-bin-hadoop3.tgz -C /export/servers/
tar -zxvf scala-2.13.11.tgz -C /export/servers/
tar -zxvf jdk-8u241-linux-x64.tar.gz -C /export/servers/
#包名过长,修改为简短名称,方便后续使用
格式:mv 旧名称 新名称
mv jdk1.8.0_181 jdk
5.设置环境变量
因为是新手,所以一个个配。先在node1上配jdk,打开,编辑,保存,重新加载使见效,检查是否见效,node1完成。之后分发给node2,node3,分发操作在node1上完成,之后在2,3上分别用source /etc/profile重新加载环境变量,检查2,3上设置是否见效。scala和spark重复上述操作。每配一个都检查一下,确定无误后再进行下一步。
#打开设置文件
vi /etc/profile
#重新加载设置文件,使环境变量见效
source /etc/profile
先设置node1,设置完成后验证环境变量是否设置成功,之后分发设置文件给另外两台虚拟机。
#设置jdk的
export JAVA_HOME=/export/servers/jdk
export PATH=$PATH
JAVA_HOME/bin
export CLASSPATH=.
JAVA_HOME/lib/dt.jar
JAVA_HOME/lib/tools.jar
#设置SCALA_HOME
export SCALA_HOME=/export/servers/scala
#添加bin路径到Path
export PATH=$PATH
SCALA_HOME/bin
#设置SPARK_HOME
export SPARK_HOME=/export/servers/spark
#添加bin路径到Path
export PATH=$PATH:/export/servers/spark/bin
验证环境变量是否见效,可用下令echo+$变量名的方式输出:
echo $JAVA_HOME
echo $SCALA_HOME
echo $SPARK_HOME
也可以用java -version,scala -version下令来检查。
spark,spark -version不行的话,可以试试spark-submit --version
分发设置。先切入jdk目录,在输入pwd表现当前目录路径,进入表现的目录,分别输入这两条下令(分发是1发给2,3,所以在1里面操作就行了。相当于输入六次,jdk分给2,3。scala分给2,3,spark分给2,3。)
分发不好怎么办,也有办法,给1的三个都配好之后,直接给后面加的一堆都在分别给2,3加进去,相当于1的三个环境变量是一个个配的,23是1检查无误后,直接复制粘贴。记得重新加载见效。
先输入下令:
ll
输入cd jdk切入jdk目录
在输入pwd表现当前目录路径并复制
输入cd /export/servers进入目录
分别输入这两条下令:
scp -r /export/servers/spark node2
PWD
scp -r /export/servers/spark node3
PWD
以spark举例,jdk,scala的给换换就行
6.修改spark设置文件:
进入到conf目录,复制文件spark-env.sh.template并重定名为spark-env.sh
cd /export/servers/spark/conf
重定名spark-env.sh.template:
mv spark-env.sh.template spark-env.sh
并修改该文件设置:
vi spark-env.sh
#设置内容放在尾部,内容如下:
#设置JAVA_HOME
export JAVA_HOME=/export/servers/jdk
#设置SCALA_HOME
export SCALA_HOME=/export/servers/scala
#设置主节点
export SPARK_MASTER_HOST=node1
export SPARK_MASTER_PORT=7077
#复制并重定名workers.template文件:
cp workers.template workers
vi workers
#添加spark集群的workers节点的主机名
node1
node2
node3
#赋予Spark目录更高的操作文件的权限
sudo chmod -R 777 /export/servers/spark
#将设置好的Spark/scala/jdk文件发送到node2、node3节点上(这一步同上面分发设置一个道理)
scp -r /export/servers/spark node02:/export/servers/
scp -r /export/servers/jdk node2:/export/servers/
scp -r /export/servers/scala node2:/export/servers/
scp -r /export/servers/spark node3:/export/servers/
scp -r /export/servers/jdk node3:/export/servers/
scp -r /export/servers/scala node3:/export/servers/
三、启动与关闭集群
Spark 提供了一些单点、集群的启动与克制脚本,可以在 Spark 目录下的 sbin 中查看启动与克制 Spark 的操作脚本。
进入 Spark的sbin 目录,并查看该目录下的脚本。具体下令如下。cd /export/servers/spark/sbin
#进入sbin目录下:
#启动集群:
./start-all.sh
运行启动脚本后,查看返回信息,并使用jps下令查看进程启动环境
启动成功后打开浏览器,输入地址 node1:8080 即可査看集群的UI,在 Spark Ul的页面可以看到集群的节点数、总核心数、内存、存活的 Worker 的信息以及集群状态信息等
#关闭集群:
./stop-all.sh
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
莫张周刘王
金牌会员
这个人很懒什么都没写!
楼主热帖
06、etcd 写请求执行流程
软件测试项目实战经验附视频以及源码【 ...
网上书店管理系统项目【Java数据库编程 ...
【云原生】三、详细易懂的Docker 容器 ...
四、WinUI3下TitleBar的自定义
如何用同一套账号接入整个研发过程? ...
c# sqlsugar,hisql,freesql orm框架全 ...
面向大规模神经网络的模型压缩和加速方 ...
物联网5种无线传输协议特点大汇总 ...
MySQL用户和权限管理
标签云
存储
挺好的
服务器
快速回复
返回顶部
返回列表