Hadoop-HDFS安装及分布式集群搭建详解

老婆出轨 · 2024-10-27 05:00:04

目录
一、前言
二、环境预备
2.1 安装JDK
2.1.1、创建文件夹，用于存放安装包和软件
2.1.2、上传并解压
2.1.3、重命名
2.1.4、设置环境变量
2.1.5、刷新设置文件并验证
2.2、设置SSH免密登录
2.2.1、起首需要在BigData01上生成公钥和私钥
2.2.2生成的公钥和私钥的位置
2.2.3、将公钥复制到所有集群节点，包罗本地主机
2.2.4、验证本地主机是否可以远程登录其他节点
三、Hadoop安装
3.1、上传并解压
3.2、重命名
3.3、开始设置环境变量
3.4、刷新设置文件
3.5、验证hadoop下令是否可以识别
三、分布式搭建
3.1、伪分布模式
3.1.1、搭建前的预备工作：
3.1.2、修改设置文件
3.1.3、格式化namenode
3.1.4、启动集群
3.2、全分布模式
3.2.1、预备三台服务器
3.2.2、修改bigdata01设置文件
3.2.3、修改workers
3.2.4、分发设置文件
3.2.5、拷贝环境变量
3.2.6、格式化namenode
3.2.7、启动HDFS
3.2.8、验证HDFS是否正常运行
四、总结

一、前言

Hadoop分布式文件系统（HDFS）是Hadoop生态系统中最基础的组件，负责存储大规模数据并提供高效的数据访问。HDFS通过分布式架构将数据分片存储在差别节点上，并实现了容错和高可用性。本文将具体先容怎样在Linux环境下安装Hadoop HDFS以及怎样搭建一个简单的分布式HDFS集群。
二、环境预备

在开始HDFS安装之前，需要预备好根本的运行环境。

操作系统：发起利用Linux（如CentOS或Ubuntu）
JDK：Hadoop依靠Java环境，需安装JDK 8或以上版本
SSH免密登录：设置各个节点之间的免密登录，方便Hadoop节点之间的通讯

2.1 安装JDK

2.1.1、创建文件夹，用于存放安装包和软件

mkdir -p /opt/modules --以后存放安装包
mkdir -p /opt/installs --以后存放解压后的软件

复制代码

2.1.2、上传并解压

tar -zxvf jdk-8u321-linux-x64.tar.gz -C /opt/installs

复制代码

2.1.3、重命名

-- 进入文件夹
cd /opt/installs
-- 进行重命名
mv jdk1.8.0_171 jdk

复制代码

2.1.4、设置环境变量

-- 打开文件
vi /etc/profile
-- 在文件的最后追加，不要删除别人的任何配置
export JAVA_HOME=/opt/installs/jdk
export PATH=$PATH:$JAVA_HOME/bin

复制代码

2.1.5、刷新设置文件并验证

source /etc/profile -- 刷新权限
java -version -- 验证

复制代码

2.2、设置SSH免密登录

2.2.1、起首需要在BigData01上生成公钥和私钥

ssh-keygen -t rsa

复制代码

2.2.2生成的公钥和私钥的位置

/root/.ssh/id_rsa

复制代码

2.2.3、将公钥复制到所有集群节点，包罗本地主机

ssh-copy-id user@hostname
或
ssh-copy-id 节点主机名或 ssh-copy-id ip

复制代码

2.2.4、验证本地主机是否可以远程登录其他节点

ssh 主机名/ip --不需要输入密码即可登录
exit --退出当前的登录

复制代码

三、Hadoop安装

3.1、上传并解压

cd /opt/moudles
tar -zxvf hadoop-3.3.1.tar.gz -C /opt/installs/

复制代码

3.2、重命名

cd /opt/installs/
mv hadoop-3.3.1 hadoop

复制代码

3.3、开始设置环境变量

vi /etc/profile
export JAVA_HOME=/opt/installs/jdk
export HADOOP_HOME=/opt/installs/hadoop
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

复制代码

3.4、刷新设置文件

source /etc/profile

复制代码

3.5、验证hadoop下令是否可以识别

hadoop version

复制代码

三、分布式搭建

3.1、伪分布模式

3.1.1、搭建前的预备工作：

-- 环境准备⼯作：
1、安装了jdk
2、安装了hadoop
3、关闭了防⽕墙
4、免密登录
⾃⼰对⾃⼰免密
ssh-copy-id bigdata01 选择yes 输⼊密码
测试免密是否成功： ssh bigdata01
5、修改linux的⼀个安全机制
vi /etc/selinux/config
修改⾥⾯的 SELINUX=disabled
6、设置host映射

复制代码

3.1.2、修改设置文件

设置文件位置： /opt/installs/hadoop/etc/hadoop
core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://bigdata01:9820</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/installs/hadoop/tmp</value>
</property>
</configuration>

复制代码

hdfs-site.xml

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>bigdata01:9868</value>
</property>
<property>
<name>dfs.namenode.http-address</name>
<value>bigdata01:9870</value>
</property>
</configuration>

复制代码

hadoop-env.sh

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
export JAVA_HOME=/opt/installs/jdk

复制代码

3.1.3、格式化namenode

最后对整个集群记性namenode格式化:

hdfs namenode -format

复制代码

3.1.4、启动集群

start-dfs.sh

复制代码

3.2、全分布模式

全分布模式：必须至少有三台以上的Linux。
前期预备工作：
3.2.1、预备三台服务器

目前有两台，克隆第二台（由于第二台没有安装mysql）, 克隆竣事后，举行修复操作
1）修改IP 2) 修改主机名 3）修改映射文件hosts

1、安装JDK
2、设置host映射
远程拷贝：
scp -r /etc/hosts root@主机名:/etc/
3、免密登录
4、安装Hadoop（第一台）
5、关闭防火墙
systemctl status firewalld
6、修改linux的⼀个安全机制
vi /etc/selinux/config
修改⾥⾯的 SELINUX=disabled

复制代码

3.2.2、修改bigdata01设置文件

<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>bigdata02:9868</value>
</property>
<property>
<name>dfs.namenode.http-address</name>
<value>bigdata01:9870</value>
</property>
</configuration>

复制代码

3.2.3、修改workers

主机名01
主机名02
主机名03

复制代码

3.2.4、分发设置文件

修改设置文件（第一台），分发到别的两台（远程拷贝）

scp -r /opt/installs/hadoop/ 主机名:/opt/installs/

复制代码

3.2.5、拷贝环境变量

scp -r /etc/profile root@主机名:/etc/
将环境变量拷贝到另外两台
刷新环境变量 source /etc/profile

复制代码

3.2.6、格式化namenode

hdfs namenode -format

复制代码

3.2.7、启动HDFS

start-dfs.sh

复制代码

3.2.8、验证HDFS是否正常运行

访问HDFS的Web界面，默认地址为：http://ip(主机ip地址):9870
四、总结

本文先容了怎样在Linux环境下安装Hadoop HDFS，并举行了简单的单节点和多节点分布式集群搭建。通过设置Hadoop的核心文件、格式化NameNode、启动HDFS集群，我们可以顺遂搭建一个高可用、高容错的HDFS分布式文件系统。HDFS是Hadoop生态系统的基石，熟练掌握其安装及设置是大数据处置惩罚的基础。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

Hadoop-HDFS安装及分布式集群搭建详解

0 个回复

快速回复

楼主热帖

标签云