目录
一、前言
二、 环境预备
2.1 安装JDK
2.1.1、创建文件夹,用于存放安装包和软件
2.1.2、上传并解压
2.1.3、重命名
2.1.4、设置环境变量
2.1.5、刷新设置文件并验证
2.2、设置SSH免密登录
2.2.1、起首需要在BigData01上生成公钥和私钥
2.2.2生成的公钥和私钥的位置
2.2.3、将公钥复制到所有集群节点,包罗本地主机
2.2.4、验证本地主机是否可以远程登录其他节点
三、Hadoop安装
3.1、上传并解压
3.2、重命名
3.3、开始设置环境变量
3.4、刷新设置文件
3.5、验证hadoop下令是否可以识别
三、分布式搭建
3.1、伪分布模式
3.1.1、搭建前的预备工作:
3.1.2、修改设置文件
3.1.3、格式化namenode
3.1.4、启动集群
3.2、全分布模式
3.2.1、预备三台服务器
3.2.2、修改bigdata01设置文件
3.2.3、修改workers
3.2.4、分发设置文件
3.2.5、拷贝环境变量
3.2.6、格式化namenode
3.2.7、启动HDFS
3.2.8、验证HDFS是否正常运行
四、总结
一、前言
Hadoop分布式文件系统(HDFS)是Hadoop生态系统中最基础的组件,负责存储大规模数据并提供高效的数据访问。HDFS通过分布式架构将数据分片存储在差别节点上,并实现了容错和高可用性。本文将具体先容怎样在Linux环境下安装Hadoop HDFS以及怎样搭建一个简单的分布式HDFS集群。
二、 环境预备
在开始HDFS安装之前,需要预备好根本的运行环境。
- 操作系统:发起利用Linux(如CentOS或Ubuntu)
- JDK:Hadoop依靠Java环境,需安装JDK 8或以上版本
- SSH免密登录:设置各个节点之间的免密登录,方便Hadoop节点之间的通讯
2.1 安装JDK
2.1.1、创建文件夹,用于存放安装包和软件
- mkdir -p /opt/modules --以后存放安装包
- mkdir -p /opt/installs --以后存放解压后的软件
复制代码 2.1.2、上传并解压
- tar -zxvf jdk-8u321-linux-x64.tar.gz -C /opt/installs
复制代码 2.1.3、重命名
- -- 进入文件夹
- cd /opt/installs
- -- 进行重命名
- mv jdk1.8.0_171 jdk
复制代码 2.1.4、设置环境变量
- -- 打开文件
- vi /etc/profile
- -- 在文件的最后追加,不要删除别人的任何配置
- export JAVA_HOME=/opt/installs/jdk
- export PATH=$PATH:$JAVA_HOME/bin
复制代码 2.1.5、刷新设置文件并验证
- source /etc/profile -- 刷新权限
- java -version -- 验证
复制代码 2.2、设置SSH免密登录
2.2.1、起首需要在BigData01上生成公钥和私钥
2.2.2生成的公钥和私钥的位置
2.2.3、将公钥复制到所有集群节点,包罗本地主机
- ssh-copy-id user@hostname
- 或
- ssh-copy-id 节点主机名 或 ssh-copy-id ip
复制代码 2.2.4、验证本地主机是否可以远程登录其他节点
- ssh 主机名/ip --不需要输入密码即可登录
- exit --退出当前的登录
复制代码 三、Hadoop安装
3.1、上传并解压
- cd /opt/moudles
- tar -zxvf hadoop-3.3.1.tar.gz -C /opt/installs/
复制代码 3.2、重命名
- cd /opt/installs/
- mv hadoop-3.3.1 hadoop
复制代码 3.3、开始设置环境变量
- vi /etc/profile
- export JAVA_HOME=/opt/installs/jdk
- export HADOOP_HOME=/opt/installs/hadoop
- export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
复制代码 3.4、刷新设置文件
3.5、验证hadoop下令是否可以识别
三、分布式搭建
3.1、伪分布模式
3.1.1、搭建前的预备工作:
- -- 环境准备⼯作:
- 1、安装了jdk
- 2、安装了hadoop
- 3、关闭了防⽕墙
- 4、免密登录
- ⾃⼰对⾃⼰免密
- ssh-copy-id bigdata01 选择yes 输⼊密码
- 测试免密是否成功: ssh bigdata01
- 5、修改linux的⼀个安全机制
- vi /etc/selinux/config
- 修改⾥⾯的 SELINUX=disabled
- 6、设置host映射
复制代码 3.1.2、修改设置文件
设置文件位置: /opt/installs/hadoop/etc/hadoop
core-site.xml
- <configuration>
- <!-- 设置namenode节点 -->
- <!-- 注意: hadoop1.x时代默认端⼝9000 hadoop2.x时代默认端⼝8020 hadoop3.x时 代默认端⼝ 9820 -->
- <property>
- <name>fs.defaultFS</name>
- <value>hdfs://bigdata01:9820</value>
- </property>
-
- <!-- hdfs的基础路径,被其他属性所依赖的⼀个基础路径 -->
- <property>
- <name>hadoop.tmp.dir</name>
- <value>/opt/installs/hadoop/tmp</value>
- </property>
- </configuration>
复制代码 hdfs-site.xml
- <configuration>
- <property>
- <!--备份数量-->
- <name>dfs.replication</name>
- <value>1</value>
- </property>
- <!--secondarynamenode守护进程的http地址:主机名和端⼝号。参考守护进程布局 -->
- <property>
- <name>dfs.namenode.secondary.http-address</name>
- <value>bigdata01:9868</value>
- </property>
- <!-- namenode守护进程的http地址:主机名和端⼝号。参考守护进程布局 -->
- <property>
- <name>dfs.namenode.http-address</name>
- <value>bigdata01:9870</value>
- </property>
- </configuration>
复制代码 hadoop-env.sh
- export HDFS_NAMENODE_USER=root
- export HDFS_DATANODE_USER=root
- export HDFS_SECONDARYNAMENODE_USER=root
- export YARN_RESOURCEMANAGER_USER=root
- export YARN_NODEMANAGER_USER=root
- export JAVA_HOME=/opt/installs/jdk
复制代码 3.1.3、格式化namenode
最后对整个集群记性namenode格式化:
3.1.4、启动集群
3.2、全分布模式
全分布模式:必须至少有三台以上的Linux。
前期预备工作:
3.2.1、预备三台服务器
目前有两台,克隆第二台(由于第二台没有安装mysql), 克隆竣事后,举行修复操作
1) 修改IP 2) 修改主机名 3)修改映射文件hosts
- 1、安装JDK
- 2、设置host映射
- 远程拷贝:
- scp -r /etc/hosts root@主机名:/etc/
- 3、免密登录
- 4、安装Hadoop(第一台)
- 5、关闭防火墙
- systemctl status firewalld
- 6、修改linux的⼀个安全机制
- vi /etc/selinux/config
- 修改⾥⾯的 SELINUX=disabled
复制代码 3.2.2、修改bigdata01设置文件
- <configuration>
- <property>
- <name>dfs.replication</name>
- <value>3</value>
- </property>
- <!--secondarynamenode守护进程的http地址:主机名和端⼝号。参考守护进程布局 -->
- <property>
- <name>dfs.namenode.secondary.http-address</name>
- <value>bigdata02:9868</value>
- </property>
- <!-- namenode守护进程的http地址:主机名和端⼝号。参考守护进程布局 -->
- <property>
- <name>dfs.namenode.http-address</name>
- <value>bigdata01:9870</value>
- </property>
- </configuration>
复制代码 3.2.3、修改workers
3.2.4、分发设置文件
修改设置文件(第一台),分发到别的两台(远程拷贝)
- scp -r /opt/installs/hadoop/ 主机名:/opt/installs/
复制代码 3.2.5、拷贝环境变量
- scp -r /etc/profile root@主机名:/etc/
- 将环境变量拷贝到另外两台
- 刷新环境变量 source /etc/profile
复制代码 3.2.6、格式化namenode
3.2.7、启动HDFS
3.2.8、验证HDFS是否正常运行
访问HDFS的Web界面,默认地址为:http://ip(主机ip地址):9870
四、总结
本文先容了怎样在Linux环境下安装Hadoop HDFS,并举行了简单的单节点和多节点分布式集群搭建。通过设置Hadoop的核心文件、格式化NameNode、启动HDFS集群,我们可以顺遂搭建一个高可用、高容错的HDFS分布式文件系统。HDFS是Hadoop生态系统的基石,熟练掌握其安装及设置是大数据处置惩罚的基础。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |