【Spark集群部署系列一】Spark local模式先容和搭建以及使用(内含Linux安 ...

打印 上一主题 下一主题

主题 559|帖子 559|积分 1677

简介


 
留意:

在部署spark集群前,请部署好Hadoop集群,jdk8【当然Hadoop集群必要运行在jdk上】,必要留意hadoop,spark的版本,思量兼容问题。好比hadoop3.0以上的才兼容spark3.0以上的。
下面是Hadoop集群部署的链接,个人笔记,已经乐成部署两次了,实时更新,分【一】【二】两部分,必要的自己看。不懂欢迎问,看到相识答。(链接失效的话请参考个人主页)
hadoop集群部署【一】HDFS集群
http://t.csdnimg.cn/BVKlqhadoop集群部署【二】YARN,MapReduce集群
http://t.csdnimg.cn/aJJt7
 搭建准备工作:

必要python
环境,上传Anaconda,找到放置的位置。
安装Anaconda

在node1(我的第一台机器名)安装Anaconda(我的是Anaconda3-2021.05-Linux-x86_64.sh         版本python
3.8)
  1. sh ./Anaconda3-2021.05-Linux-x86_64.sh
复制代码
然后一直空格,出现[yes|no] 就回答yes,懂?

出现这样的就填你要把anaconda安装到那里。(路径)


完成后结果(退出终端,重新进来)

更改conda国内源

vim ~/.condarc(新建的,一样平常内里没东西)

  1. channels:
  2.   - defaults
  3. show_channel_urls: true
  4. default_channels:
  5.   - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  6.   - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  7.   - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
  8. custom_channels:
  9.   conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  10.   msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  11.   bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  12.   menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  13.   pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  14.   simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
复制代码
终端输入 
  1. python
复制代码

 创建spark运行的虚拟环境

  1. conda create -n pyspark python
  2. =3.8
复制代码
 切换虚拟环境

  1. conda activate pyspark
复制代码
 



Spark Local部署

上传解压spark

(我的是 spark-3.2.0-bin-hadoop3.2.tgz)
通过什么工具不管,能上传就行。
找到spark上传的位置,cd 进到该目次,不进去也行,自己在前面加路径哈!解压。
  1. tar -zxvf spark-3.2.0-bin-hadoop3.2.tgz -C /export/server spark-3.2.0-bin-hadoop3.2/
复制代码
  -C 参数后跟解压到哪(路径)
  1. cd /export/server    #填你自己解压的路径
复制代码
 建立软链接
  1. ln -s spark-3.2.0-bin-hadoop3.2/ spark
复制代码
  1. ll
复制代码

 配置环境变量

  1. vim /etc/profile
复制代码

  1. export SPARK_HOME=/export/server/sparkexport PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python
  2. 3.8export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
复制代码
  1. :wq
复制代码
  1. source /etc/profile
复制代码
  1. vim /root/.bashrc
复制代码
添加 
  1. export JAVA_HOME=/export/server/jdkexport PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python
  2. 3.8
复制代码
  1. :wq
复制代码
启动spark local模式

pyspark

进入spark的bin路径下
  1. cd /export/server/spark/bin  # 注意路径
复制代码
  1. ./pyspark
复制代码

 运行下面代码,结果参考上图
  1. sc.parallelize([1,2,3,4,5]).map(lambda x:x *10).collect()
复制代码
可以通过游览器输入node1:4040查看监控页面(多个历程不会起冲突,详细监控页面的端口看上图spark版本下面第二行)
Ctrl+d退出
scala交互式界面

  1. ./spark-shell
复制代码
 Ctrl+d退出
提交python
文件(参考spark自带的案例文件pi.py    求圆周率,参数10 迭代十次)


  1. ./spark-submit --master local
  2. [*] /export/server/spark/examples/src/main/python
  3. /pi.py 10
复制代码

 提交文件没有监控界面

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

知者何南

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表