论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
大数据
›
数据仓库与分析
›
部署伪分布式 Hadoop集群
部署伪分布式 Hadoop集群
张裕
金牌会员
|
2024-10-31 03:07:45
|
显示全部楼层
|
阅读模式
楼主
主题
573
|
帖子
573
|
积分
1719
一、JDK安装配置
部署伪分布式 Hadoop 集群的安装,依靠JDK
1.1 下载JDK
下载地址:https://www.oracle.com/java/technologies/downloads/#license-lightbox
根据需要进行下载,我的系统是 Centos Linux 7 ,所以就下载
1.2 上传解压
使用xshell等工具将java压缩包上传到 /root 根目次
使用下面下令解压java并放到 /usr/local/ 目次下面
tar -zxvf jdk-8u421-linux-x64.tar.gz -C /usr/local/
复制代码
1.3 java情况配置
设置软连接,方便使用
ln -s jdk1.8.0_421 jdk
复制代码
配置JDK情况变量
vim /etc/profile
复制代码
添加如下内容
# 添加JAVA环境变量
JAVA_HOME=/usr/local/jdk
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$JAVA_HOME/bin:$PATH
复制代码
刷新配置情况
source /etc/profile
复制代码
二、伪分布式 Hadoop 安装配置
2.1 Hadoop 下载
下载地址:https://hadoop.apache.org/releases.html
根据需要下载自己的版本,这里我下载 2.10.2
2.2 上传解压
上传到根目次 /root
把文件解压到 /usr/local
tar -zxvf /usr/local/hadoop-2.10.2.tar.gz -C /usr/local/
复制代码
配置软连接
ln -s /usr/local/hadoop-2.10.2/ hadoop
复制代码
2.3 Hadoop 文件目次先容
Hadoop目次先容
bin:
存放内容:Hadoop的各种可实行脚本和程序,如启动和制止Hadoop服务的脚本、Hadoop下令行工具等。
功能:用于实行对Hadoop相关服务(如HDFS、YARN、MapReduce等)的操纵和管理使命。
etc:
存放内容:Hadoop的配置文件,如hadoop-env.sh(情况变量配置)、core-site.xml(焦点配置)、hdfs-site.xml(HDFS配置)、yarn-site.xml(YARN配置)和mapred-site.xml(MapReduce配置)等。
功能:这些文件界说了Hadoop集群的行为和设置,是Hadoop正常运行的基础。
include
存放内容:供C/C++应用程序使用的Hadoop相关的头文件。
功能:当需要编写与Hadoop交互的当地代码时,这些头文件是必要的。它们提供了与Hadoop API交互的接口和界说。
lib
存放内容:Hadoop运行所需的当地库(.so文件,即动态链接库)。
功能:这些库提供了如压缩/解压缩等底层功能支持,是Hadoop正常运行的必要条件。
sbin
存放内容:包含超级用户(管理员)使用的脚本,主要用于系统级别的操纵,如启动和制止Hadoop守卫进程。
功能:这些脚本通常需要更高的权限来实行,用于管理Hadoop集群的底层服务和进程。
share
存放内容:Hadoop的共享资源,主要包括Java的jar包(二进制源码)、文档和其他资源文件。子目次如share/hadoop/common、share/hadoop/hdfs、share/hadoop/yarn和share/hadoop/mapreduce平分别对应Hadoop各个组件的库文件和文档。
功能:这些资源为Hadoop的开发和部署提供了必要的支持,包括API文档、示例代码和依靠库等。
logs
存放内容:Hadoop各个组件和服务的日志文件,通常以.log结尾。
功能:这些日志文件记载了Hadoop集群的运行状态和错误信息,是题目排查和性能优化的紧张依据。
2.4 Hadoop 配置
2.4.1 修改 core-site.xml 配置文件
core-site.xml 文件主要是配置 Hadoop 的共有属性,详细配置内容如下所示。
[root@hadoop1 hadoop]# vim /usr/local/hadoop/etc/hadoop/core-site.xml
复制代码
在内里添加如下内容(解释记得去掉,避免引起格式错误)
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop1:9000</value>
<!--配置 hdfs NameNode 的地址,9000是RPC通信的端口-->
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/data/tmp</value>
<!--hadoop 的临时目录-->
</property>
复制代码
2.4.2 修改 hdfs-site.xml 配置文件
hdfs-site.xml 文件主要配置跟 HDFS相关的属性,详细配置内容如下所示:
[root@hadoop1 hadoop]# vim hdfs-site..xml
复制代码
在里 面添加如下内容(解释记得去掉,避免引起格式错误)
<property>
<name>dfs.namenode.name.dir</name>
<value>/root/data/dfs/name</value>
<!--配置 namenode 节点存储 fsimage的目录位置-->
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/root/data/dfs/data</value>
<!--配置 datanode 节点存储 block 的目录位置-->
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
<!--配置 hdfs 副本数量-->
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
<!--关闭 hdfs 的权限检查-->
</property>
复制代码
2.4.3 修改 hadoop-env.xml 配置文件
hadoop.env.sh 文件主要配置 Hadoop 情况相关的变量,这里主要修改JAVA_HOME的安装目次,详细配置如下所示。
[root@hadoop1 hadoop]# vim hadoop-env.sh
复制代码
大概第 25 行位置进行修改:
export JAVA_HOME=/usr/local/jdk
备注,假如你有给JAVA配置JAVA_HOME情况变量,此处也可以不进行修改
2.4.4 修改 mapred-site.xml 配置文件
mapred-site.xml 文件主要配置跟 MapReduce 相关的属性,这里主要将 MapReduce 的运行框架名称配置为 YARN,详细配置内容如下所示:
# 先拷贝一份
[root@hadoop1 hadoop]# cp mapred-site.xml.template mapred-site.xml
[root@hadoop1 hadoop]# vim mapred-site.xml
复制代码
在内里添加如下内容(解释记得去掉,避免引起格式错误)
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
<!--指定运行 mapreduce 的环境为 YARN-->
</property>
复制代码
2.4.5 修改 yarn-site.xml 配置文件
yarn-site.xml 文件主要配置跟 YARN 相关的属性,详细配置内容如下所示。
[root@hadoop1 hadoop]# vim yarn-site.xml
复制代码
在内里添加如下内容(解释记得去掉,避免引起格式错误)
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
<!--配置 NodeManager 执行MR任务的方式为 Shuffle 混洗-->
</property>
复制代码
2.4.6 修改 slaves 配置文件
slaves 文件主要配置哪些节点为 datanode 角色,由于现在搭建的是 Hadoop伪分布集群,所以只需要填写当前主机的 hostname 即可,详细配置内容如下所示:
[root@hadoop1 hadoop]# vim slaves
复制代码
内里添加如下内容(主机名称):
hadoop1
2.4.7 配置 Hadooop 情况变量
在 root 用户下,添加 Hadoop 情况变量, 详细操纵如下所示:
[root@hadoop1 hadoop]# vim /etc/profile
复制代码
内里添加如下内容:
# 添加 Hadoop环境变量
HADOOP_HOME=/usr/local/hadoop
PATH=$HADOOP_HOME/bin:$PATH
export HADOOP_HOME PATH
复制代码
更新情况配置文件
[root@hadoop1 hadoop]# source /etc/profile
复制代码
检察 Hadoop 版本
[root@hadoop1 hadoop]# hadoop version
复制代码
2.4.8 创建配置文件内里的目次
[root@hadoop1 hadoop]# mkdir -p /root/data/tmp
[root@hadoop1 hadoop]# mkdir -p /root/data/dfs/name
[root@hadoop1 hadoop]# mkdir -p /root/data/dfs/data
复制代码
三、启动伪分布式 Hadoop 集群
3.1 格式化主节点 namenode
在 Hadoop 安装目次,使用如下下令对 NameNode 进行格式化
[root@hadoop1 hadoop]# ./bin/hdfs namenode -format
复制代码
注意:第一次安装 Hadoop 集群需要对 NameNode 进行格式化,Hadoop 集群安装成功之后,下次只需要使用脚本 start-all.sh 一键启动 Hadoop 集群即可。
3.2 启动 Hadoop 伪分别集群
在 Hadoop 安装目次下,使用脚本一键启动 Hadoop 集群,详细操纵如下所示:
[root@hadoop1 hadoop]# ./sbin/start-all.sh
复制代码
3.3 检察 Hadoop 服务进程
通过 jps 下令检察 Hadoop 伪分布集群的服务进程,详细操纵如下:
[root@hadoop1 hadoop]# jps
复制代码
假如服务进程中包含 Resourcemanager、Nodemanager、NameNode、DataNode 和 SecondaryNameNode 等5个进程,这就阐明 Hadoop 伪分布式集群启动成功了。
3.4 检察 HDFS 文件系统
在欣赏器中输入 http://hadoop1:50070 地址,通过 web 界面检察 HDFS 文件系统,详细操纵如下:
3.5 检察 YARN 资源管理系统
在欣赏器中输入 http://hadoop1:8088 地址,通过 web 界面检察 HDFS 文件系统,详细操纵如下:
四、测试运行 Hadoop 伪分布集群
Hadoop 伪分布集群启动之后,我们以 Hadoop 自带的 WordCount 案例来检测 Hadoop 集群情况的可用性。
4.1 检察 HDFS 目次
在 HDFS shell 中,使用 ls 下令检察 HDFS 文件系统目次,详细操纵如下所示:
[root@hadoop1 hadoop]# ./bin/hdfs dfs -ls /
复制代码
由于是第一次使用 HDFS 文件系统,所以 HDFS 中现在没有任何文件和目次
4.2 到场 HDFS 目次
在 HDFS shell 中,使用 ls 下令检察 HDFS 文件系统目次,详细操纵如下所示:
[root@hadoop1 hadoop]# ./bin/hdfs dfs -mkdir /test
复制代码
4.3 准备测试数据
在 HDFS shell 中,使用 ls 下令检察 HDFS 文件系统目次,详细操纵如下所示:
[root@hadoop1 hadoop]# vi words.log
复制代码
添加如下内容:
hadoop hadoop hadoop
spark spark spark
flink flink flink
复制代码
4.4 测试数据前次到 HDFS
在 HDFS shell 中,使用 ls 下令检察 HDFS 文件系统目次,详细操纵如下所示:
[root@hadoop1 hadoop]# ./bin/hdfs dfs -put words.log /test
复制代码
4.5 运行 WordCount 案例
使用 yarn 脚本将 Hadoop 自带的 WordCount 程序提交到 YARN 集群运行,详细操纵如下所示:
[root@hadoop1 hadoop]# ./bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.2.jar wordcount /test/words.log /test/out
复制代码
实行完,检察 YARN 资源管理系统
检察作业运行结果
使用 cat 下令检察 WordCount 作业输出结果,详细操纵如下所示。
[root@hadoop1 hadoop]# ./bin/hdfs dfs -cat /test/out/*
复制代码
假如 WordCount 运行结果符合预期值,阐明 Hadoop 伪分布式集群已经搭建成功
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
张裕
金牌会员
这个人很懒什么都没写!
楼主热帖
linux企业版火绒(火绒终端安全管理体 ...
ESP32 IDF开发 应用篇⑭ Wifi TCP客户 ...
复杂度(上卷)
AI绘画Stable Diffusion Lora模子的利 ...
LLaMa系列模子详解(原理介绍、代码解 ...
jenkins自动化部署(node服务器) ...
什么时候用C而不消C++?
Linux安装最新版Docker完整教程(建议 ...
049-WEB攻防-文件上传&存储安全&OSS对 ...
微信云小程序快速上手云数据库+云函数+ ...
标签云
存储
挺好的
服务器
快速回复
返回顶部
返回列表