数据仓库与分析Hadoop分布式集群搭建（三台假造机）

诗林发表于 2024-7-16 18:46:24

Hadoop分布式集群搭建（三台假造机）

一.准备工作

搭建好VMware Workstation Pro（我这里装的版本是16）

二.新建假造机hadoop01

搭建hadoop集群需要三台假造机
1.新建假造机——>自定义（高级）
https://img-blog.csdnimg.cn/e72a5faa89434e13a37b4841717aa23e.png
2.不用改动，点击下一步 https://img-blog.csdnimg.cn/83c1a77501c24fda8d03295ce47dec09.png
3.映像文件稍后再加入
https://img-blog.csdnimg.cn/3c2ce78058384de4bcd7290b2560d488.png
4.选择Linux——>CentOS 7 64位
https://img-blog.csdnimg.cn/459ebce43a7d4bcaab3812b3a16044fb.png
5.可以在存放假造机的文件内新建一个文件夹，专门放hadoop集群需要的假造机（有三个）
https://img-blog.csdnimg.cn/b2bad33069954c359b31e38475a0264d.png
6.处置处罚器数量设置一个就好
https://img-blog.csdnimg.cn/1bdea48706754059b16120fc38d7f4a1.png
7.内存不敷的选2048就足够了的，我这里设置4096
https://img-blog.csdnimg.cn/c36e059b562e4e39b1add50efceffc00.png
https://img-blog.csdnimg.cn/e2c1440402ef49e582860585afda5430.png
https://img-blog.csdnimg.cn/80b2a34f150345648f6822b7ac92a74d.png
https://img-blog.csdnimg.cn/8d4b7b310bdd42edaf1a63e47fb76269.png https://img-blog.csdnimg.cn/b2bc1ab536d54732ba1891a73b45cb45.png
https://img-blog.csdnimg.cn/c38fbc8668ce458f82e636f2ea9cae0d.png
我的存储磁盘文件的位置改了一下
https://img-blog.csdnimg.cn/36dafbe54c104858b27732667b593ac0.png https://img-blog.csdnimg.cn/81b1a4d026eb4fc391e03adc84b39b03.png
编辑假造机设置，将装好的映像文件放进来
（映像文件可以在官网下载：Index of /7.6.1810/isos/x86_64）
https://img-blog.csdnimg.cn/0a42370046454d29a7e4299806e2dc20.png

打开假造机，选择完语言后，点击安装位置，然后选择我要配置分区
https://img-blog.csdnimg.cn/daadb22dedb94f8db340e0820f636d6c.png点击左下角的加号
https://img-blog.csdnimg.cn/151b37cc6e9442988f90ee01c849dd5e.png点击添加挂载点
https://img-blog.csdnimg.cn/ba58faaed13440a4852ea1a95c38f453.png
https://img-blog.csdnimg.cn/d5936d472a4e4a7ab032cf540bdbdfba.png
/根目次直接添加挂载点即可https://img-blog.csdnimg.cn/9a58f742300d43568f46e50941f77c66.png
完成https://img-blog.csdnimg.cn/812925e0bf3f46aeb11967d3ee3a1aa3.png
https://img-blog.csdnimg.cn/5f23a1e06c8b4a4dbcbf2f6b8e63bd6c.png
接受更改即可

8.点击软件选择
https://img-blog.csdnimg.cn/f835f7f3e346444f99a0a454953c3641.pnghttps://img-blog.csdnimg.cn/aebde19c876a4740bb5836c14493ff58.png

9.点击网络和主机名
https://img-blog.csdnimg.cn/9fe74777cad0481cac3ae08c16a074ae.png

以太网打开即可
https://img-blog.csdnimg.cn/0362b7788c254a33b2b59d46b1bc4e74.png
开始安装https://img-blog.csdnimg.cn/a29d93ec9d2340efae909a8d5feb653f.png

设置一下root的登录密码（尽量设置简单一些，方便每次登陆）https://img-blog.csdnimg.cn/ee12f85daebe4b0fa06d7461fa649a3c.pnghttps://img-blog.csdnimg.cn/29380173bbb849679353380a9d09ad9b.png
然后等待安装
https://img-blog.csdnimg.cn/007e3a6efad646259b8f4563e8a96690.png
右下角重启

https://img-blog.csdnimg.cn/4279ee570ba344d984082d40ae7931be.png
现在还未接受允许证，点击进去
https://img-blog.csdnimg.cn/249746cab412496daddaaf5882f6d09d.png
勾选我同意，然后完成
https://img-blog.csdnimg.cn/096282f6652f46fba4b5ae3b4aecb1d3.png
完成配置
https://img-blog.csdnimg.cn/6ea1a58b5a6f4b28a8d6e1f64ecc0d92.png
选择语言，一直前进
地域时间选择中国上海即可
https://img-blog.csdnimg.cn/d3bb981f65e645258be238fa5adc114b.png
设置一下账户密码（不过后续重要用的是root用户）
10.关闭hadoop01，然后如下图拍摄快照
https://img-blog.csdnimg.cn/e38e04bf9919485e842f32eb24b51e52.png
https://img-blog.csdnimg.cn/6b7145eab5f947a8bcf25ec0e9e14253.png

三.克隆假造机

1.卸载体系自带的jdk （我们这里要卸载体系自带的jdk）
开启hadoop01假造机，登录时用户点击未列出，用户名为root，密码是自己设的；
打开终端，输入 rpm -qa | grep java
有七个包
https://img-blog.csdnimg.cn/0c9ed6616fd047808ea7e057af8b0c88.png
使用rpm命令卸载这体系自带的七个包
使用命令：rpm -e --nodeps [包名] ，七个包都需要使用一次命令，
卸载完以后，使用 rpm -qa | grep java查看一下包是否卸载干净
https://img-blog.csdnimg.cn/0418d85318634ccba1eb7428294f1292.png
2.关闭假造机，准备克隆假造机
右键hadoop01——>管理——>克隆
https://img-blog.csdnimg.cn/8a22bd4010824c6f93c88d4fe499c7b7.png
https://img-blog.csdnimg.cn/07b22eae54854df4a702981ada786d81.png
https://img-blog.csdnimg.cn/f7c48d9b80aa4fbaba5f3c63af7246ba.png
https://img-blog.csdnimg.cn/dd302a98bfaf466da0a771675777bb24.png
将假造机名称改为hadoop02
https://img-blog.csdnimg.cn/48518865eb1742d6acd498b9368e49c6.png
https://img-blog.csdnimg.cn/a71fcaf996314c49bc7e2179e09cc7ad.png
完成后，等待一下
https://img-blog.csdnimg.cn/a8162680bf3b4d938c490e5ae9c50fdb.png
然后跟hadoop02克隆的步调一样，克隆hadoop03
克隆好以后，这里就有三台假造机：hadoop01，hadoop02，hadoop03
https://img-blog.csdnimg.cn/0f387430d1f64cc9b31beebe11910b6f.png

四.假造机的网络配置

1.配置静态ip
（ip地点的筹划要跟主机IPV4的相对应，但是末了三位数需要在128-255这个区间）
win+R打开cmd，输入命令：ipconfig，
查看VMware Network Adapter VMnet8主机ip 地点
我这里IPV4是192.168.124.1
https://img-blog.csdnimg.cn/3cbd26e7b18747b895cf4de1764a5b16.png
集群部署规划：
主机名HDFSYARNIP地点hadoop01 NameNode
DataNode
ResourceManager
NodeManager
192.168.124.128hadoop02 SecondaryNameNode
DataNode
NodeManager192.168.124.129hadoop03DataNodeNodeManager192.168.124.130 这边IP地点就是设置主机地点，除了后三位，其他都跟前面查询到的IPV4是一样的，
后三位要在128-255之间。
打开假造机hadoop01，以这一台做示范
打开假造机后，进入终端，
输入 vi /etc/sysconfig/network-scripts/ifcfg-ens33 编辑
https://img-blog.csdnimg.cn/e4e506657e1c41ce96f8d53fcfb8615b.png
按i进入insert模式，下图是原来的
https://img-blog.csdnimg.cn/e40adc70e5f44153bbdd006f2047666d.png
修改：
BOOTPROTO="static"
ONBOOT="yes"
IPADDR=192.168.124.128
NETMAST=255.255.255.0
GATWAY=192.168.124.2
DNS1=8.8.8.8
DNS2=114.114.114.114
https://img-blog.csdnimg.cn/b1e0d52dff09447b9fc3f49767019e37.png
（按Esc退出编辑模式，然后:wq退出编辑并保存）
注意：IPADDR每台主机是不同的，根据自己的来设定，GATWAY网关我这边是192.168.124.2
https://img-blog.csdnimg.cn/ff0a380272864fbaba87365e0f1a8a0e.png
hadoop02和hadoop03也同上设置

*在开启第三台假造机时，有如下报错
https://img-blog.csdnimg.cn/10dd49ae26bb473eba3815b434816b4e.png
https://img-blog.csdnimg.cn/a8dcda57c6444cee9c263254cc1ed6dd.png

编辑假造机设置，将内存改为上述报错建议的大小即可https://img-blog.csdnimg.cn/dbce857c77f84c19901f1a8c5ad39881.png
重新开启假造机就可以了。
hadoop02：
https://img-blog.csdnimg.cn/9825e0b127274c48b1d08c78c1c35605.png
hadoop03：
https://img-blog.csdnimg.cn/4dce7ca5b5d4488fbe661068f3e79545.png

五.关闭防火墙

1.查看一下防火墙状态：systemctl status firewalld.servicehttps://img-blog.csdnimg.cn/c544cc962966411c8d252e7373668409.png

2.永久关闭防火墙：systemctl disable firewalld.service

https://img-blog.csdnimg.cn/a547690b25fd4f02a0041cb43101373e.png
三台假造机都需要关闭防火墙
https://img-blog.csdnimg.cn/0eec651d0935402889a9c1f987b550b9.png
https://img-blog.csdnimg.cn/2e2ad037fbb04ede80a7b9f2da50a997.png

六.修改主机名

现在三台主机名都为localhost，为了方便后续与服务器毗连，要把三台主机分别对应修改为hadoop01、hadoop02和hadoop03
用命令：vim /etc/hostname
https://img-blog.csdnimg.cn/014726e0494041088798b46f263b7ee8.png
https://img-blog.csdnimg.cn/5db58e42cac7458490f0040740fcc136.png
https://img-blog.csdnimg.cn/9747088359384453bcee70f21bb14371.png

七.配置主机名与IP映射

配置主机名与IP映射重要是方便主机名和静态ip映射
终端输入：vim /etc/hosts
加入如下三行：
192.168.124.128 hadoop01
192.168.124.129 hadoop02
192.168.124.130 hadoop03
https://img-blog.csdnimg.cn/8bbcf81ef8b640e1bf7ff0caaaca03ad.png
三台假造机都要配置，配置好以后，执行 ping hadoop02 看看是否能够ping通
https://img-blog.csdnimg.cn/7a62c5e870cf41978131cc317417d762.png
如果出现如上图情况，证实设置乐成。
可以将三台假造机都互相ping一下。

八.设置SSH免密登录

每个节点之间ssh毗连要不停输入密码，为了防止这些操纵，就得设置一下ssh免密登录。
在终端输入 ssh-keygen -t rsa 生成秘钥，然后一直回车
https://img-blog.csdnimg.cn/76c9af32d37b45fb8f7a14519f950c27.png
另外两台假造机也需要如上一样生成秘钥
然后，互相复制公钥到每一台假造机
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop01
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop02
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop03
回车后——>yes——>输root的登录密码
三台假造机都需要输，然后用ssh hadoop01，ssh hadoop02，ssh hadoop03验证，如下图时，免密配置乐成。
https://img-blog.csdnimg.cn/f33dddc45ad445c284b9ccb65efbeac2.png

九.安装远程工具Xshell和Xftp

在官网下载，家庭/学校免费 - NetSarang Website
新建会话
https://img-blog.csdnimg.cn/4fdaa91f882344798aa2065b87113768.png
https://img-blog.csdnimg.cn/80658642f90b479287c7bc628abeb02d.png

将hadoop01、hadoop02、hadoop03都毗连上
https://img-blog.csdnimg.cn/72a3106c547c4708918aaa4298a1704b.png

十.安装和配置Java

1.创建目次，用来放置压缩包以及解压缩后的内容

打开Xftp进行新建目次，也可以在Xshell中使用命令
mkdir -p /export/software
mkdir -p /export/servers
mkdir -p /export/data
https://img-blog.csdnimg.cn/08d25a6de6f74aa0b2249df5dd049360.png
2.将hadoop和jdk的安装包用Xftp上传

（安装包可以到官网下载）
https://img-blog.csdnimg.cn/5ce8e607eca846668ea48be3f3082aa7.png
在Xshell中用ls命令查看software下的压缩包
https://img-blog.csdnimg.cn/67393db8e7d847c4aace5529a14149c3.png
3.解压jdk

将jdk解压到前面创建好的目次：/export/servers/中
https://img-blog.csdnimg.cn/d4980898445543289d4efc6c300a873b.png
解压完成
https://img-blog.csdnimg.cn/fd42721fcb284c02afb0e3ff37b07826.png

4.配置JDK环境变量

输入 vim /etc/profile 进入编辑环境变量，
加上下面三行
https://img-blog.csdnimg.cn/61a9f8410b414ece86fec066eb0bfc00.png
保存退出后，用 source /etc/profile 将环境变量生效，
java -version查看jdk是否安装和配置乐成，下图就是安装乐成了。
https://img-blog.csdnimg.cn/33d2124fb49347fe988d76930019b985.png

十一.安装和配置Hadoop

1.解压Hadoop的压缩包

https://img-blog.csdnimg.cn/1bac6cd7e0104bc0aa0b2235801e4c87.png
解压完毕
https://img-blog.csdnimg.cn/52740be3883c4825a41c79c3a8a80896.png
2.配置环境变量

vim /etc/profile 打开环境变量进行编辑
添加如下两行
export HADOOP_HOME=/export/servers/hadoop-2.7.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
https://img-blog.csdnimg.cn/0ae558e456ee4ca28adbe90b99440600.png
将环境生效
然后用 hadoop verison 检查是否安装乐成
https://img-blog.csdnimg.cn/585d5778b6ce4d22b0581243433e118b.png

十二.配置Hadoop集群

配置Hadoop集群重要需要修改六个配置文件，分别为hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves这六个。

cd /export/servers/hadoop-2.7.4/etc/hadoop/ 切换到这个目次下，可以看到需要修改增长配置的文件都在这个目次下

1.修改 hadoop-env.sh 文件

进入编辑：vim hadoop-env.sh
（路径太长了不想切换出去再粘贴进来，可以vim进入编辑以后按Esc，然后输入“：”，输入cd /export/servers/jdk1.8.0_161/ ——> 这里可以按tab键补全，比方输入ex，然后按tab键，就会补全export）如下图：
https://img-blog.csdnimg.cn/ff202652633943c3914dafb114736491.png
回到编辑模式：按Esc，然后按i，就能回到编辑模式
将JAVA_HOME路径添加进来
https://img-blog.csdnimg.cn/51840e6efe6c433ab6219e1e1eccb712.png

2.修改 core-site.sh 文件

进入编辑：vim core-site.xml
https://img-blog.csdnimg.cn/b7bb1aacc1154a989b0e37d0628f8e59.png
<configuration>
         
         <property>
                 <name>fs.defaultFS</name>

                 <value>hdfs://hadoop01:9000</value>
         </property>
         <property>
                 <name>hadoop.tmp.dir</name>
                 <value>/export/servers/hadoop-2.7.4/tmp</value>
         </property>
</configuration>
最好对其一下
https://img-blog.csdnimg.cn/d38dd6252d26424083caf449a4a62dbd.png
保存退出编辑
（这是配置了NameNode的运行主机的位置以及存放临时数据的目次）

3.修改 hdfs-site.sh 文件

vim hdfs-site.sh 进入编辑
https://img-blog.csdnimg.cn/c9499f38913548e98785cbe882bcae26.png 保存并退出编辑
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop02:50090</value>
</property>
</configuration>
这里设置了副本的数量以及SecondaryNameNode所在节点位置

4.添加mapred-site.xml 文件

这里是指定mapreduce的运行框架，指定为yarn
目次中没有该文件，需要将mapred-site.xml.template复制改名为mapred-site.xml
cp mapred-site.xml.template mapred-site.xml
https://img-blog.csdnimg.cn/98ec5bc5b8ad440882669ab29b8dd4dc.png
进入编辑：vim mapred-site.xml
https://img-blog.csdnimg.cn/0482ed74244e4198a5c3271b34b01aa6.png
保存并退出编辑
<configuration>

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

5.修改yarn-site.xml文件

https://img-blog.csdnimg.cn/ebcf7c9c1d9146d39c4738a214f63707.png
保存并退出编辑
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop01</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

6.修改slaves文件

还在当前目次中，编辑slaves文件：vim slaves
将localhost 删掉，改成如下图：
https://img-blog.csdnimg.cn/14dc51220f054a558f9269c14c07f52e.png
保存退出

7.将主节点配置好的文件分配到其他节点

分发体系文件：
scp -r /etc/profile hadoop02:/etc/profile
scp -r /etc/profile hadoop03:/etc/profile
https://img-blog.csdnimg.cn/a1e9a9d70d0b47379215e8c12fe00a2a.png
分发配置文件：
scp -r /export/ hadoop02:/
scp -r /export/ hadoop03:/
需要一点时间，等待一下

十三.Hadoop集群测试

第一次启动NameNode时，必须对主节点，也就是NameNode这个节点进行格式化
hdfs namenode -format 或 hadoop namenode -format
出现下面划红线这两行，就代表格式化乐成
https://img-blog.csdnimg.cn/2a4c5bdb470745abace401ce3cfc63b6.png
只有第一次启动时需要格式化，后续都不需要，之间启动即可

十四.启动Hadoop集群

1.在hadoop01中，启动全部服务进程：

start-dfs.sh
https://img-blog.csdnimg.cn/227428447bd74fbe9d8364b9470e4fe2.png

2.启动YARN服务进程

输入：start-yarn.sh
https://img-blog.csdnimg.cn/859e38f35589435184a2fe997b60f5e2.png

3.查看进程

三个节点均使用 jps 查看进程
https://img-blog.csdnimg.cn/965cac9ab50b4f44802458ecb7ced9a6.png
https://img-blog.csdnimg.cn/34518773b9184c26b096c93a0da96529.png
https://img-blog.csdnimg.cn/6648a7606412488794b0c2a78b9756ee.png
Hadoop集群启动正常
接下来可以在欣赏器中输入：
192.168.124.128:8088
192.168.124.128:50070
https://img-blog.csdnimg.cn/7e7eefd86e504a55b99f218029c746cf.png
https://img-blog.csdnimg.cn/def8fd3cbd7649e0b02ce15dcbfd4d1e.png
Hadoop集群配置完成

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

Hadoop分布式集群搭建（三台假造机）