物联网【Spark集群部署系列一】Spark local模式先容和搭建以及使用（内含Linux安

知者何南 发表于 2024-8-13 19:56:09

【Spark集群部署系列一】Spark local模式先容和搭建以及使用（内含Linux安

简介https://i-blog.csdnimg.cn/direct/fce74d5ad3d9457798e8aca481decdb0.png

https://i-blog.csdnimg.cn/direct/5abdb4c8b62549398f0f46c12c45ab20.png
留意：

在部署spark集群前，请部署好Hadoop集群，jdk8【当然Hadoop集群必要运行在jdk上】，必要留意hadoop，spark的版本，思量兼容问题。好比hadoop3.0以上的才兼容spark3.0以上的。
下面是Hadoop集群部署的链接，个人笔记，已经乐成部署两次了，实时更新，分【一】【二】两部分，必要的自己看。不懂欢迎问，看到相识答。(链接失效的话请参考个人主页)
hadoop集群部署【一】HDFS集群https://csdnimg.cn/release/blog_editor_html/release2.3.6/ckeditor/plugins/CsdnLink/icons/icon-default.png?t=N7T8http://t.csdnimg.cn/BVKlqhadoop集群部署【二】YARN,MapReduce集群https://csdnimg.cn/release/blog_editor_html/release2.3.6/ckeditor/plugins/CsdnLink/icons/icon-default.png?t=N7T8http://t.csdnimg.cn/aJJt7
搭建准备工作：

必要python
环境,上传Anaconda，找到放置的位置。
安装Anaconda

在node1（我的第一台机器名）安装Anaconda(我的是Anaconda3-2021.05-Linux-x86_64.sh 版本python
3.8)
sh ./Anaconda3-2021.05-Linux-x86_64.sh 然后一直空格，出现就回答yes,懂?
https://i-blog.csdnimg.cn/direct/6f585b2e5d8c44f7a6376095f7fb0819.png
出现这样的就填你要把anaconda安装到那里。（路径）
https://i-blog.csdnimg.cn/direct/988a8e34d21a45e69363fc10f08cb4e8.png
https://i-blog.csdnimg.cn/direct/2b36dfcab83f43738150c332fd4dbe42.png
完成后结果（退出终端，重新进来）
https://i-blog.csdnimg.cn/direct/1a8c269b9d8547df9682d2ec75c86526.png
更改conda国内源

vim ~/.condarc(新建的，一样平常内里没东西)

channels:
- defaults
show_channel_urls: true
default_channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
终端输入
python
https://i-blog.csdnimg.cn/direct/654d1f7843ad42a3ac95f13204debd17.png
创建spark运行的虚拟环境

conda create -n pyspark python
=3.8 切换虚拟环境

conda activate pyspark https://i-blog.csdnimg.cn/direct/7ad9c3d816364dda94e11b83087edb47.png

Spark Local部署

上传解压spark

(我的是 spark-3.2.0-bin-hadoop3.2.tgz)
通过什么工具不管，能上传就行。
找到spark上传的位置,cd 进到该目次，不进去也行，自己在前面加路径哈！解压。
tar -zxvf spark-3.2.0-bin-hadoop3.2.tgz -C /export/server spark-3.2.0-bin-hadoop3.2/
-C 参数后跟解压到哪（路径）
cd /export/server #填你自己解压的路径建立软链接
ln -s spark-3.2.0-bin-hadoop3.2/ spark ll https://i-blog.csdnimg.cn/direct/3ccd367aacfa42fd870a8eabe2b04b24.png
配置环境变量

vim /etc/profile https://i-blog.csdnimg.cn/direct/c33cc2634c564f3ca3f90863fd75a3ae.png
export SPARK_HOME=/export/server/sparkexport PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python
3.8export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop :wq source /etc/profile vim /root/.bashrc
添加
export JAVA_HOME=/export/server/jdkexport PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python
3.8 :wq 启动spark local模式

pyspark

进入spark的bin路径下
cd /export/server/spark/bin# 注意路径 ./pyspark https://i-blog.csdnimg.cn/direct/d7c873f4c8024dbf905f8e740537bbe4.png
运行下面代码，结果参考上图
sc.parallelize().map(lambda x:x *10).collect()
可以通过游览器输入node1:4040查看监控页面（多个历程不会起冲突，详细监控页面的端口看上图spark版本下面第二行）
Ctrl+d退出
scala交互式界面

./spark-shell Ctrl+d退出
提交python
文件（参考spark自带的案例文件pi.py 求圆周率，参数10 迭代十次）

./spark-submit --master local
[*] /export/server/spark/examples/src/main/python
/pi.py 10 https://i-blog.csdnimg.cn/direct/dec0c4e580af4b63872717fe92e04cc6.png
提交文件没有监控界面

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

【Spark集群部署系列一】Spark local模式先容和搭建以及使用（内含Linux安