数据仓库与分析Hadoop 与 Zookeeper 集群搭建

铁佛发表于 2025-1-2 21:03:49

Hadoop 与 Zookeeper 集群搭建

一、Hadoop与Zookeeper介绍

（1）Hadoop

Hadoop 是一个分布式系统基础架构，由 Apache 基金会开发，旨在处理大规模数据集。它主要包含以下两个核心组件：

[*]Hadoop 分布式文件系统（HDFS）：一种分布式文件系统，可以或许将大文件切分成多个块，并存储在集群中的不同节点上。具有高容错性、高吞吐量等特点，恰当大规模数据的存储。比方，在一个大型互联网公司中，天天产生的海量用户行为数据可以存储在 HDFS 中。
[*]MapReduce 编程模型：用于大规模数据集的并行计算。通过将计算任务分解为 Map（映射）和 Reduce（归约）两个阶段，实现数据的分布式处理。好比，统计海量文本中每个单词的出现次数，就可以利用 MapReduce 来高效完成。
https://i-blog.csdnimg.cn/direct/d77367924fba45bf80fae46f76f86dd2.png

（2）Zookeepe

Zookeeper是一个开源的分布式和谐服务，主要用于办理分布式系统中的和谐问题。它提供设置管理、定名服务、集群管理、同步服务等功能。Zookeeper的核心特性包括：

[*]‌全局数据同等性‌：每个服务器保存一份相同的数据副本，客户端无论连接到哪个服务器，数据都是同等的。
[*]‌更新请求顺序执行‌：来自同一个客户端的更新请求按发送顺序依次执行。
[*]‌数据更新原子性‌：一次数据更新要么乐成，要么失败。
[*]‌及时性‌：在一定时间范围内，客户端能读到最新数据‌34
https://i-blog.csdnimg.cn/direct/feffb47a55344ba3aa129def17ce94ac.png

（3）Hadoop与Zookeeper的关系和应用场景

在一个典范的大数据处理架构中，Hadoop 和 Zookeeper 常常协同工作。Zookeeper 可以为 Hadoop 集群提供分布式和谐服务，比方：

[*]Hadoop NameNode 的高可用性：通过 Zookeeper 实现 NameNode 的主备切换，包管 Hadoop 集群的高可用性。当主 NameNode 出现故障时，Zookeeper 可以或许快速选举出新的主节点，确保集群正常运行。
[*]资源管理和谐：在 Hadoop 的资源管理框架（如 YARN）中，Zookeeper 可以协助进行资源的分配和和谐，包管任务的合理调理和执行。
应用场景

[*]Hadoop 的应用场景：适用于大规模数据的存储和离线处理，如日志分析、数据仓库构建、机器学习模型练习等。比方，电商公司可以利用 Hadoop 分析用户购买行为数据，为用户提供个性化推荐。
[*]Zookeeper 的应用场景：广泛应用于分布式系统中的和谐、设置管理等方面，如分布式锁、服务发现、集群管理等。好比，在一个微服务架构中，Zookeeper 可以用于服务注册与发现，资助服务之间快速找到对方并进行通信。
在实际应用中，Hadoop和Zookeeper常常被用于同一个系统中，因为它们之间有很强的耦合关系。Zookeeper可以用于管理Hadoop集群的元数据，如NameNode的地点、DataNode的地点等；同时，Hadoop也可以用于处理Zookeeper集群的大数据，如日志、监控数据等。Zookeeper在Hadoop集群中的作用尤为重要，特殊是在NameNode的高可用性方面，通过Zookeeper的选举机制，确保一个NameService下面只有一个活泼的NameNode，从而提供高可靠性的服务。

二、HBase概述

Apache HBase是一个分布式、可伸缩、列式存储的高并发及时读写NoSQL数据库，是Hadoop生态的重要组成。一张表支持数十亿行和数百万列。
HBase是依赖Hadoop。因为HBase是在HDFS的基础之上构建的，而HDFS是分布式文件系统，能存储海量数据，以是HBase能存储海量的数据。
HBase在HDFS之上提供了高并发的随机写和支持及时查询，这是HDFS不具备的。
https://i-blog.csdnimg.cn/direct/d0be424098814d6f916001122f55d0be.png

（1）列式存储

下图是一个表，表示两行七列数据，也就是可以明白成，存储到磁盘的时候，每行都是由多列数据组成的。
id姓名年龄职业年薪女朋友身高1小明24500W已有2小王搬砖而假如是列式存储，不同的列是单独存储在不同的文件中，这样可以针对不同的列采取不同的压缩方式，进步压缩结果，降低磁盘利用空间；查询时，也可以只查询部分的列数据，而不用查询全部列，减少I/O，进步查询效率。
对于上表，在Hbase中，可以将姓名、年龄、身高这几列看作是一组，单独存储，职业、年薪这两列也可以看作是一组，单独存储。在Hbase中，多列归为一组（具体哪些列在哪些组由设计者决定），就可以称之为一个列族。
（2）HBase架构图

https://i-blog.csdnimg.cn/direct/d69fea2b830f46ba8e250fe93a1e28ff.pnghttps://i-blog.csdnimg.cn/direct/efef2d59d5044720bb0f96a458cd291d.png
说明：
1. ZK是zookeeper的缩写，是一个分布式步伐。ZK可以存储小量数据，它一样平常以辅助的脚色来协助其他分布式步伐完成一些功能。
2.HBase依赖ZK。安装HBase的时候，可以独立下载ZK来部署ZK，也可以用HBase自带的ZK

（3）客户端读写HBase的基本流程

https://i-blog.csdnimg.cn/direct/5049f9e3048448a1a66f7dadfb2bd08e.png

三、Hadoop 集群启动

（1）启动下令与节点查抄

在终端输入start-all.sh
下令启动 Hadoop 集群，顺利启动了 NameNode、DataNode、Secondary NameNode、ResourceManager 和 NodeManager 等节点。通过jps
下令查看各节点历程，确保所有节点正常运行。
start-all.sh
运行代码：
https://i-blog.csdnimg.cn/direct/5028e9d76bbd48d48e9c713eb2229696.png
查抄所有节点正常运行：
jps
运行代码：
https://i-blog.csdnimg.cn/direct/4b712e80bd7148298598d7653da8f387.png
https://i-blog.csdnimg.cn/direct/f0c14f8f41184c91908c77ef547868fa.png
https://i-blog.csdnimg.cn/direct/cf3019d7e28f4c168c51c026a7cf0864.png

（2）遇到的问题及办理

权限问题：最初启动时，部分节点因权限不足无法正常启动。通过查抄文件权限，利用chmod下令赋予相干用户执行权限后办理。
设置错误：设置文件中某些参数设置错误，导致节点间通信异常。仔细查抄hadoop-env.sh、core-site.xml、hdfs-site.xml和yarn-site.xml等设置文件，修正错误参数后，集群乐成启动。
（3）总结与思考

启动 Hadoop 集群过程中，对各节点功能和相互关系有了更深入明白。NameNode 负责管理文件系统定名空间，DataNode 存储实际数据块，Secondary NameNode 辅助 NameNode 进行元数据备份，ResourceManager 负责资源管理，NodeManager 负责容器管理。合理设置各节点参数对集群性能至关重要。
四、Zookeeper 集群搭建

（1）解压与设置环境变量

1.解压 Zookeeper 安装包：利用tar -zxvf apache-zookeeper-3.5.7-bin.tar.gz -C /usr/local下令将 Zookeeper 解压到指定目次。
tar -zxvf apache-zookeeper-3.5.7-bin.tar.gz -C /usr/local 运行代码：https://i-blog.csdnimg.cn/direct/ce043172f73e4e7d8397773ebf1a2766.png
https://i-blog.csdnimg.cn/direct/a2241b0419fa4713b2c10b4ee10a79ca.png
（由于输出太多，仅截图部分压缩代码）
进入local目次
cd /usr/local/
运行代码：
https://i-blog.csdnimg.cn/direct/0ad9d82f833340a5a24f5f88999d36d6.png
查看local目次文件
ll date
运行代码：
https://i-blog.csdnimg.cn/direct/2cd2a026ba894a96ad6487f3e6b2e8e4.png
https://i-blog.csdnimg.cn/direct/0f8a88babbe54854b7bda68d87280b8a.png
进入/apache-zookeeper-3.5.7-bin目次
cd apache-zookeeper-3.5.7-bin/ pwd
运行代码：
https://i-blog.csdnimg.cn/direct/b23c042058e347a4be7a7131445ceb6c.png
https://i-blog.csdnimg.cn/direct/b7d8cab76e2f4d009710a4bf667803b5.png

2.设置环境变量：
在/etc/profile文件中添加以下内容：
vi /etc/profile
export ZK_HOME=/usr/local/apache-zookeeper-3.5.7-bin

export PATH=$PATH:$ZK_HOME/bin 运行代码：
https://i-blog.csdnimg.cn/direct/8ca0961f858047abb150ab35b580da42.png
https://i-blog.csdnimg.cn/direct/b520d27e356f4392891f0bce6f01848c.png
3.设置环境变量
（2）设置文件修改

1.复制设置文件：进入/usr/local/apache-zookeeper-3.5.7-bin/conf目次，复制zoo_sample.cfg为zoo.cfg。
cd/usr/local/apache-zookeeper-3.5.7-bin/conf 运行代码：
https://i-blog.csdnimg.cn/direct/657a512576564a7887dea42cfde77607.png
查看conf目次文件
ll 运行代码：
https://i-blog.csdnimg.cn/direct/422c7ed4be4941158c4c38ce025d871f.png
zoo_sample.cfg的文件复制一份，并定名为zoo.cfg
cp zoo_sample.cfg zoo.cfg 运行代码：
https://i-blog.csdnimg.cn/direct/8f02fac157b84260a737bc50206bc5df.png
https://i-blog.csdnimg.cn/direct/3fcbe67514c840acbaa3a76055c19962.png

2.编辑 zoo.cfg 文件：修改tickTime、initLimit、syncLimit、dataDir、clientPort等参数，并添加集群节点信息，如server.1=wmy077028:2888:3888、server.2=wmy2077028:2888:3888、server.3=wmy3077028:2888:3888（具体环境具体分析）。
vi zoo.cfg
/usr/local/apache-zookeeper-3.5.7-bin/dataDir 运行代码：
https://i-blog.csdnimg.cn/direct/cd5540670fa44bcbb3e6a809e37042c1.png
https://i-blog.csdnimg.cn/direct/ff4aa20ec35b4a2787f1832798e58cd0.png
（3）创建 myid 文件

在dataDir目次下创建myid文件，分别在三台机器上设置不同的值（1、2、3），用于标识集群中的不同节点。
切换到apache-zookeeper-3.5.7-bin目次，并查看当前目次文件
cd .. ll 运行代码：
https://i-blog.csdnimg.cn/direct/912b93f745c84537ba9cdbe32451c41f.png
https://i-blog.csdnimg.cn/direct/3df9bdfbe7cd4b2099b074f66cf67250.png

在当前工作目次下创建一个名为dataDir的目次
mkdir dataDir 运行代码：
https://i-blog.csdnimg.cn/direct/89789d345e58454d8fca5491d5aaceb3.png
切换到 dataDir目次下
cd dataDir/ 运行代码：

https://i-blog.csdnimg.cn/direct/38cf76737eb44e84b0010f47fda4d2b9.png
创建并进入myid文件，内容为1（其他两个历程分别编辑为2，3）
vi myid
运行代码：
https://i-blog.csdnimg.cn/direct/3092b38e8571460fa2604c8ffbe3f557.png
https://i-blog.csdnimg.cn/direct/280bbdacb4a045bd915a3e47988521d6.png
查看三个历程：
cd /usr/local/
apache-zookeeper-3.5.7-bin/dataDir/cat myid 运行代码：
第一个历程：
https://i-blog.csdnimg.cn/direct/18a89b5cebc04467b03fcee9883f3acd.png
第二个历程：
https://i-blog.csdnimg.cn/direct/3d9ea16e3bdc47abb78b9bb7e4d6af3f.png
第三个历程：
https://i-blog.csdnimg.cn/direct/a4747ca4c94e4c84943422b7a2053f5d.png
（4）分发 Zookeeper 到其他节点

利用scp -r apache-zookeeper-3.5.7-bin/ root@wmy2077028:/usr/local/和scp -r apache-zookeeper-3.5.7-bin/ root@wmy3077028:/usr/local/下令将 Zookeeper 分发到其他节点。
scp /etc/profile root@wmy2077028:/etc

scp /etc/profile root@wmy3077028:/etc 运行代码：
https://i-blog.csdnimg.cn/direct/96dc8d236fd6470e8727a9308e4e5e4f.png
切换到apache-zookeeper-3.5.7-bin目次，并查看当前目次文件
cd ll 运行代码：
https://i-blog.csdnimg.cn/direct/ae905638acbd4066816314f2748d78a1.png
https://i-blog.csdnimg.cn/direct/2782e5c7ad0e46438cb2263f90a03900.png
分发到其他节点
scp -r apache-zookeeper-3.5.7-bin/ root@wmy2077028:/usr/local/

scp -r apache-zookeeper-3.5.7-bin/ root@wmy3077028:/usr/local/
运行代码：
https://i-blog.csdnimg.cn/direct/d92e0de7dcfe464bb51d2a194a3e066f.png
https://i-blog.csdnimg.cn/direct/935a5f90d860443dafa776c73b9f311a.png
（由于输出太多，仅截图部传输代码）
（5）启动 Zookeeper 集群

在每台机器上执行
zkServer.sh status
启动 Zookeeper 服务，通过zkServer.sh status
查看节点状态，确保一台为 leader，两台为 follower。
运行代码：
https://i-blog.csdnimg.cn/direct/059a41bdd5544214bd21942a10ee158f.png
https://i-blog.csdnimg.cn/direct/24f4bba6241143a891bf45c4c98a5b4c.png

https://i-blog.csdnimg.cn/direct/58281f21a04d4741b687d8148b2bdf6e.png

（6）遇到的问题及办理

1.myid 文件设置错误：节点启动失败，查抄发现myid文件内容设置错误，重新设置正确的值后办理。
2.防火墙问题：节点间无法通信，关闭防火墙后恢复正常。
（7）总结与思考

搭建 Zookeeper 集群需留意设置文件准确性和节点间通信。zoo.cfg文件参数影响集群性能和可靠性，如tickTime控制心跳隔断，initLimit和syncLimit影响节点同步。myid文件标识节点，确保其唯一性和正确性。
五、Zookeeper 客户端操作

（1）连接到 Zookeeper 集群

利用zkCli.sh下令连接到当地 Zookeeper 服务（localhost:2181），连接乐成后表现客户端环境信息和欢迎信息。
zkCli.sh 运行代码：
https://i-blog.csdnimg.cn/direct/f7b9d7e2324341a5a56aa507dfdbe119.png
（由于输出太多，仅截图部分代码）
（2）数据操作示例

1.查看Zookeeper节点：利用ls /下令查看Zookeeper节点。
ls / 2.创建节点：利用create /mynode1下令创建一个名为mynode1的节点。
create /mynode1 3.设置节点数据：利用set /mynode1 'value of my node1'为节点设置数据。
set /mynode1 'value of my node1' 4.获取节点数据：利用get /mynode1获取节点数据，验证数据设置是否乐成。
get /mynode1 5.查看节点列表：利用ls下令查看当前节点下的子节点列表，表现。
运行代码：
https://i-blog.csdnimg.cn/direct/a4d8e72b77654d24ba8357c48f8474b7.png
（3）总结与思考

通过 Zookeeper 客户端操作，了解其基本数据模型和操作方法。Zookeeper 提供简朴易用接口，可用于分布式系统和谐和设置管理。在实际应用中，可用于实现分布式锁、服务发现、设置中央等功能。
这次 Hadoop 和 Zookeeper 集群搭建过程布满挑战，但也让我对大数据技能有了更深入明白。盼望我的履历能对大家有所资助，欢迎交流讨论。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

Hadoop 与 Zookeeper 集群搭建