spark情况搭建

打印 上一主题 下一主题

主题 963|帖子 963|积分 2904

一、情况规划

组件版本备注假造机软件VMware/VirtualBox保举16.x以上版本操作系统Ubuntu 20.04 LTS桌面版/服务器版均可JavaJDK 8Hadoop兼容性要求Hadoop3.3.4伪分布式模式Spark3.3.0兼容Hadoop 3.xPythonPython 3.6需配置pip
二、Ubuntu假造机安装

1. 创建假造机


  • 下载 Ubuntu 20.04 ISO镜像
  • 在VMware/VirtualBox中新建假造机,分配资源:

    • CPU:2核
    • 内存:4GB
    • 硬盘:50GB(动态分配)

  • 安装时选择 最小化安装,创建用户(如 sparkuser),设置暗码。
2. 基本配置

bash
复制
  1. # 更新系统
  2. sudo apt update && sudo apt upgrade -y
  3. # 安装必要工具
  4. sudo apt install -y ssh net-tools vim openssh-server
  5. # 配置SSH免密登录(本机)
  6. ssh-keygen -t rsa
  7. cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  8. chmod 600 ~/.ssh/authorized_keys
  9. # 设置静态IP(可选)
  10. # 编辑 /etc/netplan/00-installer-config.yaml
  11. # 示例配置:
  12. network:
  13.   ethernets:
  14.     ens33:
  15.       dhcp4: no
  16.       addresses: [192.168.1.100/24]
  17.       gateway4: 192.168.1.1
  18.       nameservers:
  19.         addresses: [8.8.8.8, 114.114.114.114]
  20. # 应用配置
  21. sudo netplan apply
复制代码

三、MobaXterm远程毗连


  • 在Windows下载安装 MobaXterm 官网链接
  • 获取Ubuntu假造机IP:
    bash
    复制
    1. ip a
    复制代码
  • 在MobaXterm新建SSH会话:

    • Host: Ubuntu假造机IP
    • Username: sparkuser
    • Password: 假造机用户暗码


四、Hadoop伪分布式集群搭建

1. 安装JDK 8

bash
复制
  1. sudo apt install -y openjdk-8-jdk
  2. echo 'export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
  3. export PATH=$JAVA_HOME/bin:$PATH' >> ~/.bashrc
  4. source ~/.bashrc
复制代码

2. 安装Hadoop 3.3.4

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz tar -zxvf hadoop-3.3.4.tar.gz -C /opt/ sudo mv /opt/hadoop-3.3.4 /opt/hadoop sudo chown -R sparkuser:sparkuser /opt/hadoop

3. 配置Hadoop情况变量

echo 'export HADOOP_HOME=/opt/hadoop export PATH=$HADOOP_HOME/binHADOOP_HOME/sbinPATH' >> ~/.bashrc source ~/.bashrc
4. 修改Hadoop配置文件



  • core-site.xml
    1. <configuration>
    2.   <property>
    3.     <name>fs.defaultFS</name>
    4.     <value>hdfs://localhost:9000</value>
    5.   </property>
    6. </configuration>
    复制代码
    运行 HTML
  • hdfs-site.xml
    1. <configuration>
    2.   <property>
    3.     <name>dfs.replication</name>
    4.     <value>1</value>
    5.   </property>
    6.   <property>
    7.     <name>dfs.namenode.name.dir</name>
    8.     <value>/opt/hadoop/data/namenode</value>
    9.   </property>
    10.   <property>
    11.     <name>dfs.datanode.data.dir</name>
    12.     <value>/opt/hadoop/data/datanode</value>
    13.   </property>
    14. </configuration>
    复制代码
  • mapred-site.xml
    1. <configuration>
    2.   <property>
    3.     <name>mapreduce.framework.name</name>
    4.     <value>yarn</value>
    5.   </property>
    6. </configuration>
    复制代码
  • yarn-site.xml
    1. <configuration>
    2.   <property>
    3.     <name>yarn.nodemanager.aux-services</name>
    4.     <value>mapreduce_shuffle</value>
    5.   </property>
    6.   <property>
    7.     <name>yarn.resourcemanager.hostname</name>
    8.     <value>localhost</value>
    9.   </property>
    10. </configuration>
    复制代码

5. 格式化HDFS并启动服务

  1. # 格式化HDFS
  2. hdfs namenode -format
  3. # 启动HDFS
  4. start-dfs.sh
  5. # 启动YARN
  6. start-yarn.sh
  7. # 验证
  8. jps  # 应显示NameNode、DataNode、ResourceManager、NodeManager
复制代码


五、Spark安装配置

1. 安装Spark 3.3.0

bash
复制
  1. wget https://dlcdn.apache.org/spark/spark-3.3.0/spark-3.3.0-bin-hadoop3.tgz
  2. tar -zxvf spark-3.3.0-bin-hadoop3.tgz -C /opt/
  3. sudo mv /opt/spark-3.3.0-bin-hadoop3 /opt/spark
  4. sudo chown -R sparkuser:sparkuser /opt/spark
复制代码
2. 配置情况变量

bash
复制
  1. echo 'export SPARK_HOME=/opt/spark
  2. export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH' >> ~/.bashrc
  3. source ~/.bashrc
复制代码
3. 修改Spark配置

bash
复制
  1. cp $SPARK_HOME/conf/spark-env.sh.template $SPARK_HOME/conf/spark-env.sh
  2. echo 'export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
  3. export HADOOP_CONF_DIR=/opt/hadoop/etc/hadoop
  4. export SPARK_MASTER_HOST=localhost' >> $SPARK_HOME/conf/spark-env.sh
复制代码


六、Python 3.6及Pip安装

1. 安装Python 3.6

bash
复制
  1. sudo apt install -y software-properties-common
  2. sudo add-apt-repository ppa:deadsnakes/ppa
  3. sudo apt update
  4. sudo apt install -y python3.6 python3.6-dev
复制代码
2. 配置默认Python版本

bash
复制
  1. sudo update-alternatives --install /usr/bin/python3 python3 /usr/bin/python3.6 1
  2. sudo update-alternatives --config python3  # 选择Python3.6
复制代码

3. 安装Pip

bash
复制
  1. curl https://bootstrap.pypa.io/get-pip.py | sudo python3.6
  2. sudo ln -s /usr/local/bin/pip3 /usr/bin/pip
复制代码

4. 安装PySpark依赖

bash
复制
  1. pip install pyspark==3.3.0 findspark
复制代码

七、验证情况

1. 启动Spark Shell

bash
复制
  1. spark-shell  # Scala交互环境
  2. > val data = Array(1, 2, 3)
  3. > val rdd = sc.parallelize(data)
  4. > rdd.count()  # 应返回3
复制代码
2. 验证PySpark

python
复制
  1. # 启动Python3
  2. python3
  3. # 在Python中执行
  4. import findspark
  5. findspark.init()
  6. from pyspark.sql import SparkSession
  7. spark = SparkSession.builder.master("local[*]").appName("Test").getOrCreate()
  8. df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])
  9. df.show()
复制代码


八、常见问题


  • Hadoop启动失败

    • 检查 JAVA_HOME 配置,确保路径正确。
    • 删除 /opt/hadoop/data 后重新格式化HDFS。

  • PySpark无法找到Java

    • 确认 JAVA_HOME 在 ~/.bashrc 中正确配置。

  • Python版本冲突

    • 利用 update-alternatives 管理多版本Python。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

大连全瓷种植牙齿制作中心

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表