Hadoop-HDFS安装及分布式集群搭建详解

打印 上一主题 下一主题

主题 890|帖子 890|积分 2670

目录
一、前言
二、 环境预备
2.1 安装JDK
2.1.1、创建文件夹,用于存放安装包和软件
2.1.2、上传并解压
2.1.3、重命名
2.1.4、设置环境变量
2.1.5、刷新设置文件并验证
2.2、设置SSH免密登录
2.2.1、起首需要在BigData01上生成公钥和私钥
2.2.2生成的公钥和私钥的位置
2.2.3、将公钥复制到所有集群节点,包罗本地主机
2.2.4、验证本地主机是否可以远程登录其他节点
三、Hadoop安装
3.1、上传并解压
3.2、重命名
3.3、开始设置环境变量
3.4、刷新设置文件
3.5、验证hadoop下令是否可以识别
三、分布式搭建
3.1、伪分布模式
3.1.1、搭建前的预备工作:
3.1.2、修改设置文件
3.1.3、格式化namenode
3.1.4、启动集群
3.2、全分布模式
3.2.1、预备三台服务器
3.2.2、修改bigdata01设置文件
3.2.3、修改workers
3.2.4、分发设置文件
3.2.5、拷贝环境变量
3.2.6、格式化namenode
3.2.7、启动HDFS
3.2.8、验证HDFS是否正常运行
四、总结


一、前言

Hadoop分布式文件系统(HDFS)是Hadoop生态系统中最基础的组件,负责存储大规模数据并提供高效的数据访问。HDFS通过分布式架构将数据分片存储在差别节点上,并实现了容错和高可用性。本文将具体先容怎样在Linux环境下安装Hadoop HDFS以及怎样搭建一个简单的分布式HDFS集群。
二、 环境预备

在开始HDFS安装之前,需要预备好根本的运行环境。


  • 操作系统:发起利用Linux(如CentOS或Ubuntu)
  • JDK:Hadoop依靠Java环境,需安装JDK 8或以上版本
  • SSH免密登录:设置各个节点之间的免密登录,方便Hadoop节点之间的通讯
2.1 安装JDK

2.1.1、创建文件夹,用于存放安装包和软件

  1. mkdir -p /opt/modules     --以后存放安装包
  2. mkdir -p /opt/installs    --以后存放解压后的软件
复制代码
2.1.2、上传并解压

  1. tar -zxvf jdk-8u321-linux-x64.tar.gz -C /opt/installs
复制代码
2.1.3、重命名

  1. -- 进入文件夹
  2. cd /opt/installs
  3. -- 进行重命名
  4. mv jdk1.8.0_171 jdk
复制代码
2.1.4、设置环境变量

  1. -- 打开文件
  2. vi /etc/profile
  3. -- 在文件的最后追加,不要删除别人的任何配置
  4. export JAVA_HOME=/opt/installs/jdk
  5. export PATH=$PATH:$JAVA_HOME/bin
复制代码
2.1.5、刷新设置文件并验证

  1. source /etc/profile  -- 刷新权限
  2. java -version  -- 验证
复制代码
2.2、设置SSH免密登录

2.2.1、起首需要在BigData01上生成公钥和私钥

  1. ssh-keygen -t rsa
复制代码
2.2.2生成的公钥和私钥的位置

  1. /root/.ssh/id_rsa
复制代码
2.2.3、将公钥复制到所有集群节点,包罗本地主机

  1. ssh-copy-id user@hostname
  2. ssh-copy-id 节点主机名 或 ssh-copy-id ip
复制代码
2.2.4、验证本地主机是否可以远程登录其他节点

  1. ssh 主机名/ip  --不需要输入密码即可登录
  2. exit  --退出当前的登录
复制代码
三、Hadoop安装

3.1、上传并解压

  1. cd /opt/moudles
  2. tar -zxvf hadoop-3.3.1.tar.gz -C /opt/installs/
复制代码
3.2、重命名

  1. cd /opt/installs/
  2. mv hadoop-3.3.1 hadoop
复制代码
3.3、开始设置环境变量

  1. vi /etc/profile
  2. export JAVA_HOME=/opt/installs/jdk
  3. export HADOOP_HOME=/opt/installs/hadoop
  4. export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
复制代码
3.4、刷新设置文件

  1. source /etc/profile
复制代码
3.5、验证hadoop下令是否可以识别

  1. hadoop version
复制代码
三、分布式搭建

3.1、伪分布模式

3.1.1、搭建前的预备工作:

  1. -- 环境准备⼯作:
  2. 1、安装了jdk
  3. 2、安装了hadoop
  4. 3、关闭了防⽕墙
  5. 4、免密登录
  6.      ⾃⼰对⾃⼰免密
  7.      ssh-copy-id bigdata01   选择yes 输⼊密码
  8.      测试免密是否成功:    ssh bigdata01
  9. 5、修改linux的⼀个安全机制
  10.     vi /etc/selinux/config
  11.    修改⾥⾯的 SELINUX=disabled
  12. 6、设置host映射
复制代码
3.1.2、修改设置文件

设置文件位置: /opt/installs/hadoop/etc/hadoop
core-site.xml
  1. <configuration>
  2.   <!-- 设置namenode节点 -->
  3.   <!-- 注意: hadoop1.x时代默认端⼝9000 hadoop2.x时代默认端⼝8020 hadoop3.x时 代默认端⼝ 9820 -->
  4.   <property>
  5.     <name>fs.defaultFS</name>
  6.     <value>hdfs://bigdata01:9820</value>
  7.   </property>
  8.   
  9.   <!-- hdfs的基础路径,被其他属性所依赖的⼀个基础路径 -->
  10.   <property>
  11.     <name>hadoop.tmp.dir</name>
  12.     <value>/opt/installs/hadoop/tmp</value>
  13.   </property>
  14. </configuration>
复制代码
hdfs-site.xml
  1. <configuration>
  2.     <property>
  3.         <!--备份数量-->
  4.         <name>dfs.replication</name>
  5.         <value>1</value>
  6.     </property>
  7.     <!--secondarynamenode守护进程的http地址:主机名和端⼝号。参考守护进程布局 -->
  8.     <property>
  9.         <name>dfs.namenode.secondary.http-address</name>
  10.         <value>bigdata01:9868</value>
  11.     </property>
  12.     <!-- namenode守护进程的http地址:主机名和端⼝号。参考守护进程布局 -->
  13.     <property>
  14.         <name>dfs.namenode.http-address</name>
  15.         <value>bigdata01:9870</value>
  16.     </property>
  17. </configuration>
复制代码
hadoop-env.sh
  1. export HDFS_NAMENODE_USER=root
  2. export HDFS_DATANODE_USER=root
  3. export HDFS_SECONDARYNAMENODE_USER=root
  4. export YARN_RESOURCEMANAGER_USER=root
  5. export YARN_NODEMANAGER_USER=root
  6. export JAVA_HOME=/opt/installs/jdk
复制代码
3.1.3、格式化namenode

最后对整个集群记性namenode格式化:
  1. hdfs namenode -format
复制代码
3.1.4、启动集群

  1. start-dfs.sh
复制代码
3.2、全分布模式

全分布模式:必须至少有三台以上的Linux。
前期预备工作:
3.2.1、预备三台服务器

目前有两台,克隆第二台(由于第二台没有安装mysql), 克隆竣事后,举行修复操作
1) 修改IP 2) 修改主机名 3)修改映射文件hosts
  1. 1、安装JDK
  2. 2、设置host映射
  3.    远程拷贝:
  4.    scp -r /etc/hosts root@主机名:/etc/
  5. 3、免密登录
  6. 4、安装Hadoop(第一台)
  7. 5、关闭防火墙
  8.    systemctl status firewalld
  9. 6、修改linux的⼀个安全机制
  10.    vi /etc/selinux/config
  11.    修改⾥⾯的 SELINUX=disabled
复制代码
3.2.2、修改bigdata01设置文件

  1. <configuration>
  2.     <property>
  3.         <name>dfs.replication</name>
  4.         <value>3</value>
  5.     </property>
  6.     <!--secondarynamenode守护进程的http地址:主机名和端⼝号。参考守护进程布局 -->
  7.     <property>
  8.         <name>dfs.namenode.secondary.http-address</name>
  9.         <value>bigdata02:9868</value>
  10.     </property>
  11.     <!-- namenode守护进程的http地址:主机名和端⼝号。参考守护进程布局 -->
  12.     <property>
  13.         <name>dfs.namenode.http-address</name>
  14.         <value>bigdata01:9870</value>
  15.     </property>
  16. </configuration>
复制代码
3.2.3、修改workers

  1. 主机名01
  2. 主机名02
  3. 主机名03
复制代码
3.2.4、分发设置文件

修改设置文件(第一台),分发到别的两台(远程拷贝)
  1. scp -r /opt/installs/hadoop/  主机名:/opt/installs/
复制代码
3.2.5、拷贝环境变量

  1. scp -r /etc/profile root@主机名:/etc/
  2. 将环境变量拷贝到另外两台
  3. 刷新环境变量 source /etc/profile
复制代码
3.2.6、格式化namenode

  1. hdfs namenode -format
复制代码
3.2.7、启动HDFS

  1. start-dfs.sh
复制代码
3.2.8、验证HDFS是否正常运行

访问HDFS的Web界面,默认地址为:http://ip(主机ip地址):9870
四、总结

本文先容了怎样在Linux环境下安装Hadoop HDFS,并举行了简单的单节点和多节点分布式集群搭建。通过设置Hadoop的核心文件、格式化NameNode、启动HDFS集群,我们可以顺遂搭建一个高可用、高容错的HDFS分布式文件系统。HDFS是Hadoop生态系统的基石,熟练掌握其安装及设置是大数据处置惩罚的基础。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

老婆出轨

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表