数据仓库与分析2024年大数据最全Hadoop大数据集群搭建（超详细）_hadoop集群搭建，快速从

篮之新喜 发表于 2024-7-18 07:57:24

2024年大数据最全Hadoop大数据集群搭建（超详细）_hadoop集群搭建，快速从

https://img-blog.csdnimg.cn/img_convert/4634c81f034f0306852db7b6b1d91753.png
https://img-blog.csdnimg.cn/img_convert/af5aab8e406c0e2711f416a1c528b973.png
网上学习资料一大堆，但如果学到的知识不成体系，碰到题目时只是浅尝辄止，不再深入研究，那么很难做到真正的技能提拔。
必要这份体系化资料的朋友，可以戳这里获取
一个人可以走的很快，但一群人才气走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎到场我们的的圈子（技能交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习发展！
https://img-blog.csdnimg.cn/1d61a361e6884891aafba66adc6fe0e8.png修改完成之后记得利用命令source /etc/profile，使修改生效
4. JDK环境验证

java -version
https://img-blog.csdnimg.cn/800137fc9e7741de823aeae09f5bc5b7.png
第六步：安装Hadoop

1. 下载Hadoop 3.1.3

Index of /dist/hadoop/common
https://img-blog.csdnimg.cn/8864927309e34d6bbc01d122cb4759a5.png
https://img-blog.csdnimg.cn/9a44a386f9b249f7970180b88d2c2792.png
2. 安装Hadoop

同样通过mobaxterm的上的SFTP功能（或其他工具）上传到/export/software目录下，然后解压到/export/servers目录下
cd /export/software
mobaxterm的上的SFTP功能
https://img-blog.csdnimg.cn/97617f4106d34abfaf0d963645dbddb7.png
tar -zxvf hadoop-3.1.3.tar.gz -C /export/servers/
https://img-blog.csdnimg.cn/80765273f329497f88bf44ce10b60cd1.png
3. 设置Hadoop体系环境变量

vim /etc/profile
设置环境变量
export HADOOP_HOME=/export/servers/hadoop-3.1.3
export PATH=:                               H                      A                      D                      O                      O                      P                      _                      H                      O                      M                      E                      /                      b                      i                      n                      :                            HADOOP\_HOME/bin:                HADOOP_HOME/bin:HADOOP_HOME/sbin:$PATH
https://img-blog.csdnimg.cn/5406ef668c6b4d479297308b5b71a357.png
同时添加hadoop为root用户，否则启动的HDFS的时候可能会报错
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
https://img-blog.csdnimg.cn/ac4c097b3ae644cfb54a1850f65956c3.png
执行source /etc/profile命令,让设置生效
4. 验证Hadoop环境

hadoop version
https://img-blog.csdnimg.cn/a9dcc132fa574f588c525b2fa3e3d3e3.png
==========================   快照    ==================================
第七步：Hadoop集群设置

集群设置如下：
https://img-blog.csdnimg.cn/f6c07964b8764570a9672e12dd14e1ae.png
1、设置Hadoop集群主节点

（1）修改hadoop-env.sh文件

cd /export/servers/hadoop-3.1.3/etc/hadoop
vim hadoop-env.sh
找到export JAVA_HOME的位置修改
export JAVA_HOME=/export/servers/jdk
https://img-blog.csdnimg.cn/0153c4fc3d8745e1a514404bf9f893f2.png
（2）修改core-site.xml文件

主要是设置主进程NameNode的运行主机和运行生成数据的临时目录
vim core-site.xml
写入以下内容

fs.defaultFS
hdfs://hadoop01:9000

hadoop.tmp.dir
/export/servers/hadoop-3.1.3/tmp

https://img-blog.csdnimg.cn/ad93772ca4ea40aaaabd3d32224bccc6.png
（3）修改hdfs-site.xml文件

设置HDFS数据块的副本数量以及second namenode的地点
vim hdfs-site.xml
写入以下内容

dfs.replication
3

dfs.namenode.secondary.http-address
hadoop02:50090

https://img-blog.csdnimg.cn/7c13c6d8424949049c42d2de5cc0d3b8.png
（4）修改mapred-site.xml文件

设置MapReduce的运行时框架
vim mapred-site.xml
写入以下内容

mapreduce.framework.name
yarn

https://img-blog.csdnimg.cn/229d0ce428a4428d93ef008e49eabea2.png
（5）修改yarn-site.xml文件

设置yarn集群的管理者
vim yarn-site.xml
写入以下内容

yarn.resourcemanager.hostname
hadoop01

yarn.nodemanager.aux-services
mapreduce_shuffle

https://img-blog.csdnimg.cn/3f52199aae644a4fb63b304d5881743a.png
（6）修改workers文件

该文件用来记载从节点的主机名（hadoop 2.x中为slaves文件）
打开该设置文件，先删除内里的内容（默认localhost），然后设置如下内容。
vim workers
删除默认内容，添加以下内容
hadoop01
hadoop02
hadoop03
https://img-blog.csdnimg.cn/9fea423f0dd54adb89d85c3b0794be95.png
2、将集群主节点的设置文件分发到其他子节点

完成Hadoop集群主节点hadoop01的设置后，还必要将体系环境设置文件、JDK安装目录和Hadoop安装目录分发到其他子节点hadoop02和hadoop03上，具体指令：
scp /etc/profile hadoop02:/etc/profile
scp /etc/profile hadoop03:/etc/profile
scp -r /export/ hadoop02:/
scp -r /export/ hadoop03:/
传完之后要在hadoop02和hadoop03上分别执行 source /etc/profile 命令，来刷新设置文件
如果利用scp时必要输入暗码，请重新查抄ssh设置！

第八步：格式化文件体系

初次启动HDFS集群时，必须对主节点进行格式化处置惩罚。在hadoop01上执行
格式化文件体系指令如下：
hdfs namenode -format
https://img-blog.csdnimg.cn/1baf16d99aeb497290c6b1a3cb025df8.png
不要多次格式化主节点！
第九步：启动和关闭hadoop集群

脚本一键启动：
hadoop01主节点上执行：
start-dfs.sh
https://img-blog.csdnimg.cn/900c1fd81a1a4c1a87026fdcfc398890.png
可以通过jps看到
https://img-blog.csdnimg.cn/68a03eb872e8439d846bbf57e8581ab6.pnghttps://img-blog.csdnimg.cn/48ab3b6a381b4757b79b541eef923c41.png
https://img-blog.csdnimg.cn/410194ca32014388b0ff30d92899d7ce.png
在主节点上执行
start-yarn.sh
https://img-blog.csdnimg.cn/59c87a0d790c44aa84605674588d2e0c.png
https://img-blog.csdnimg.cn/ee43275e717d4950acc5a72852d19f38.png
https://img-blog.csdnimg.cn/c58d7a4a764d48caa9cffaf394aecc00.pnghttps://img-blog.csdnimg.cn/38b14162f6244e388ea87857d3c9c8bb.png
如果想要关闭，输入stop-dfs.sh即可（不要执行）

第十步：通过UI界面查看hadoop运行状态

1. 关闭防火墙功能

在3台虚拟机上均执行以下命令
本次临时关闭防火墙、永久关闭防火墙
systemctl stop firewalld.service
systemctl disable firewalld.service
2. 修改windows下ip映射

打开C:\Windows\System32\drivers\etc下的hosts文件,添加以下内容（注：如果没有notepad++这类软件，可以通过记事本保存在其他位置，然后拖动到该文件夹下）
192.168.121.134 hadoop01
192.168.121.135 hadoop02
192.168.121.136 hadoop03
https://img-blog.csdnimg.cn/528f541e056b412d8dfae0c2c2e54b48.png
在浏览器输入
http://hadoop01:9870
http://hadoop01:8088
即可访问HDFS和Yarn
https://img-blog.csdnimg.cn/17e77987c4a54ca087188625d2231d12.png
https://img-blog.csdnimg.cn/264f3955f6b844bf9cba14ebb2ff9f97.png

==========================   快照    ==================================
第十一步：hadoop集群初体验

统计word.txt中各单词出现的次数
在Hadoop01创建如下目录，并添加测试文件
mkdir -p /export/data
cd /export/data
vi word.txt
写入下列内容
hello world
hello hadoop
hello students
https://img-blog.csdnimg.cn/da9d85b44f7e4c17b12aeecd5ee92613.png
在HDFS上创建 /wordcount/input目录
hadoop fs -mkdir -p /wordcount/input
创建完成后可以在HDFS的网站上看到
https://img-blog.csdnimg.cn/c269901fbc1e4cfca5ccf344129a0786.png
https://img-blog.csdnimg.cn/e7e8f71724fe4f758e51487e43fd5e43.png
将word.txt上传到该目录下
hadoop fs -put /export/data/word.txt /wordcount/input
https://img-blog.csdnimg.cn/39beb0c199cf4a61be3629c24fb35f4c.png

执行该步伐（参考下文中可能碰到的题目，题目1、2为必现题目，建议直接修改）
cd /export/servers/hadoop-3.1.3/share/hadoop/mapreduce
hadoop jar hadoop-mapreduce-examples-3.1.3.jar wordcount /wordcount/input /wordcount/output
https://img-blog.csdnimg.cn/b893c728b5f344fe93714146d295087b.png
查看结果如下：
https://img-blog.csdnimg.cn/a02e6e584d4b450fb4a51024f6d50b11.png
https://img-blog.csdnimg.cn/fc8263fd982e4ac2b4186a683efa39cf.png

注意：

可能碰到的题目1:

找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster
解决方法：
输入 hadoop classpath
复制返回的信息
修改yarn-site.xml
cd /export/servers/hadoop-3.1.3/etc/hadoop
vim yarn-site.xml
新增以下内容
yarn.application.classpath
输入刚才返回的Hadoop classpath路径

https://img-blog.csdnimg.cn/76b8d3de1f7d47a986ab7fcbb2bd7728.png

可能碰到的题目2：

Container killed on request. Exit code is 143
解决方法：
cd /export/servers/hadoop-3.1.3/etc/hadoop
vim mapred-site.xml
mapreduce.map.memory.mb
2048
maps的资源限制
mapreduce.reduce.memory.mb
2048
reduces的资源限制
https://img-blog.csdnimg.cn/11c3b531eae24145a8065d4d533b5f45.png
可能碰到的题目3：

https://img-blog.csdnimg.cn/img_convert/73736cd5fed1017d9cfa52640b543579.png
https://img-blog.csdnimg.cn/img_convert/7735aa97d7a22f0520af772b3ae9391d.png
网上学习资料一大堆，但如果学到的知识不成体系，碰到题目时只是浅尝辄止，不再深入研究，那么很难做到真正的技能提拔。
必要这份体系化资料的朋友，可以戳这里获取
一个人可以走的很快，但一群人才气走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎到场我们的的圈子（技能交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习发展！
2048
maps的资源限制
mapreduce.reduce.memory.mb
2048
reduces的资源限制
https://img-blog.csdnimg.cn/11c3b531eae24145a8065d4d533b5f45.png
可能碰到的题目3：

[外链图片转存中…(img-s7jxFCc3-1715241465601)]
[外链图片转存中…(img-AjnmgvmT-1715241465601)]
网上学习资料一大堆，但如果学到的知识不成体系，碰到题目时只是浅尝辄止，不再深入研究，那么很难做到真正的技能提拔。
必要这份体系化资料的朋友，可以戳这里获取
一个人可以走的很快，但一群人才气走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎到场我们的的圈子（技能交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习发展！

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

2024年大数据最全Hadoop大数据集群搭建（超详细）_hadoop集群搭建，快速从