【大数据】深入浅出Hadoop，干货满满

莱莱 · 2024-9-11 09:29:59

假设如今有一个PB级别的数据库表要处理惩罚。

在单机环境下，只能升级你的内存、磁盘、CPU，那么这台机器就会变成 “超算”，成本太高，商业公司肯定是没法这么干的。

思量在多主机环境下，如果把PB级别的表先拆分成多少个GB级别的数据包，每台计算机处理惩罚好了之后，再归并到一起，那么就是可行的，并且每台机器也不贵，而且存储和算力不敷时还可以继续加机器。

无论是线上的web应用，照旧偏离线的数仓服务，一旦流量和数据量大了之后必须得走集群多节点这个方案。而一旦涉及到集群场景，就必然产生资源调理、负载均衡、高可用、高容错、可拓展等等的问题，因此要设计一系列补丁（框架和中间件）去拆东墙补西墙，保证多集群多节点下任务不出错。

于是Hadoop及其生态就应运而生了。

文章脉络

图1 本文知识点 Hadoop

Hadoop是一个开源的分布式计算平台，由Apache软件基金会开发和维护。它是大数据处理惩罚的基石，能够高效地存储和处理惩罚大规模数据。目前业界基本上用的都是Hadoop及其生态下的产品。Hadoop的重要特点是高可靠性和高扩展性，它可以在成百上千个节点上运行，每个节点都可以存储和处理惩罚数据。
狭义的Hadoop，通常就指HDFS + MapReduce + YARN。
但是随着其生态的发展，本日我们再提及Hadoop，通常指的是它的整个生态，包括Hive、Hbase、Spark、Pig、Flume、Sqoop等等。
【留意】本文重要先容“狭义的Hadoop”，指HDFS、MapReduce、YARN这三个组件。

图2 Hadoop1.x和2.x的架构对比   图2是Hadoop的版本1和版本2的架构对比。在早期，Hadoop的生态还不齐全，因此MapReduce既负责计算，也负责对多节点的资源进行管理，以完成作业的公道分配。
升级到2.x后，把1.x中MapReduce的功能剥离开，新增了YARN组件做同一的资源管理和调理。
【留意】像Spark这种基于内存的计算框架，不会使用MapReduce，但是Spark也没有资源调理（进而控制HDFS）的功能，因此新增的YARN可以友好地支持类似于Spark这种不会使用MapReduce的技术。
   Hadoop重要由以下三个组件构成：
1、Hadoop分布式文件系统（HDFS）：HDFS是Hadoop的存储系统，用于存储大量的数据。它通过将数据分散存储在多个节点上来实现数据的可靠存储和高吞吐量访问。数据被分割成块（通常是128MB或256MB大小），并在多个节点上复制，以进步数据的可靠性和系统的容错本领。
2、MapReduce：MapReduce是Hadoop的处理惩罚框架，用于大规模数据处理惩罚。它将数据处理惩罚任务分解成两个函数：Map和Reduce。Map函数处理惩罚输入数据，并天生中间键值对。Reduce函数则对这些中间键值对进行聚合处理惩罚，天生终极的效果。
3、YARN（Yet Another Resource Negotiator）：YARN是Hadoop的资源管理器，负责管理集群中的计算资源。它答应各种数据处理惩罚应用在Hadoop集群上运行，不仅仅限于MapReduce。
HDFS

Hadoop Distributed File System (HDFS) 是Hadoop的最核心组件，用来存储大量数据。HDFS是一种分布式文件系统，它将数据存储在由大量廉价硬件构成的集群上，并提供高吞吐量的数据访问，恰当用于大规模数据处理惩罚场景。
由于要具有高容错性、高吞吐量的特点，HDFS在存储数据时会进行切块，然后对每个块进行多副本存储，每个副本存储在不同的从节点上，以制止因单节点故障造成数据丢失。
【留意】正因为HDFS是多副本存储的（默认副本数为3），如果你看到你在你们公司自研的管理平台上看到的表总大小是3GB，那么其实它有可能实际上只有1GB。要留意分清文件大小统计的计算方法。
   HDFS的系统架构如下：

图3 HDFS架构（图片泉源于Hadoop官方文档）   HDFS重要有三个核心概念：
· Client：用于与HDFS交互的接口，比如下令hadoop fs大概Java接口。通过RPC与节点通信。
· NameNode：HDFS集群中的主节点，负责维护整个文件系统的命名空间和元数据。
· DataNode：存储实际的数据块，负责处理惩罚文件系统客户端的读写请求，发送心跳。
【留意】一个HDFS集群只有一个活泼的NameNode，固然在HDFS的高可用性（HA）配置中，会有两个NameNode（一个主NameNode和一个备用NameNode）以提供故障转移功能。
   Namenode和Datanode可以在普通的商用机器上运行。这些机器一般运行着GNU/Linux操作系统。HDFS采用Java语言开发，因此任何支持Java的机器都可以摆设Namenode或Datanode。由于采用了可移植性极强的Java语言，使得HDFS可以摆设到多种类型的机器上。一个典型的摆设场景是一台机器上只运行一个Namenode实例，而集群中的其它机器分别运行一个Datanode实例。这种架构并不排斥在一台机器上运行多个Datanode，只不过这样的环境比较少见。
集群中单一Namenode的结构大大简化了系统的架构。Namenode是所有HDFS元数据的仲裁者和管理者。
MapReduce

在先容MapReduce之前，先先容大数据的计算模式。
大数据的计算模式重要分为 批计算(batch computing)、流计算(stream computing)、交互计算(interactive computing)、图计算(graph computing) 等。此中，流计算和批计算是两种重要的大数据计算模式，分别适用于不同的大数据应用场景。
批式处理惩罚框架重要有Hadoop MapReduce和Spark等。Hadoop MapReduce组件封装了MapReduce并行编程模型。Spark是对Hadoop MapReduce组件的改进，通过对中间效果使用内存存储，大幅进步了计算速度，目前是批处理惩罚应用的主流选择。
【留意】计算框架又可称为“引擎”，比如你写Hive（Hadoop生态的其他工具）SQL查表，那么就可以选择是使用MapReduce照旧Spark来执行，因此计算框架又可以称为执行引擎。
   流式处理惩罚框架重要有Storm、Spark Streaming、Flink等。Storm是较早成熟的低延长流式数据处理惩罚框架，可以进行变乱级（单条数据）处理惩罚。Spark Streaming是基于Spark批处理惩罚实现的微批式的流式处理惩罚，延长较高，可以和Spark一起应用，实现流批一体的数据处理惩罚。Flink是当前最精彩的流式数据处理惩罚框架，可以进行变乱级数据处理惩罚，具有低延长、吞吐量大、支持SQL等优点。
【留意】
批计算场景be like 先拿到截至昨天用户表的所有数据，然后进行处理惩罚（比如group by），最后得到效果，抽象明确为“全量且T+1”。

而流计算场景be like 我要实时监控我这家公司的订单环境，并必要一些处理惩罚和分析操作，然后输出出来，必要实时（延长低，1s内），此时就不得不用Flink、Storm之流。
   接下来正式先容MapReduce。
MapReduce作为一种全新的通用并行编程模型，是基于集群的并行计算方式的创新抽象，非常简单易用，开发友好。MapReduce处理惩罚数据为Key-Value格式，其重要思想是从函数式编程借鉴而来的。MapReduce模型将计算分为两个阶段。
Map（映射）阶段：对每条数据记录进行独立处理惩罚，其处理惩罚逻辑相当于对每条输入执行一个映射变换（即函数的计算），因此可以在大量节点进行并行处理惩罚（通常在数据所在节点）。
Reduce（规约）阶段：汇总计算阶段，即处理惩罚逻辑具有记录之间的相关性，比方按Key对Value进行加和运算，此阶段一般会产生节点间的数据传输（即Shuffle操作）。
MapReduce的系统架构如下：

图4 MapReduce架构   MapReduce重要有四个核心概念：
· Client：用于提交和管理MapReduce作业的工具，如下令行hadoop jar。
· JobTracker：JobTracke负责资源监控和作业调理。JobTracker监控所有TaskTracker与job的康健状况，一旦发现失败，就将相应的任务转移到其他节点；同时，JobTracker会跟踪任务的执行进度、资源使用量等信息，并将这些信息告诉任务调理器，而调理器会在资源出现空闲时，选择合适的任务使用这些资源。
· TaskTracker：TaskTracker会周期性地通过Heartbeat将本节点上资源的使用环境和任务的运行进度汇报给JobTracker，同时吸收JobTracker 发送过来的下令并执行相应的操作（如启动新任务、杀死任务等）。
· Task：Task 分为Map Task和Reduce Task两种，均由TaskTracker启动。
【留意】Map Task和Reduce Task是可以编写Java脚本大概Python脚本等去执行的，但是学习成本和使用成本都比较高。一般不是特别必要，写HQL就能搞定工作必要。
   MapReduce内部逻辑的大致流程重要由以下几步完成：
Mapper阶段
1) 对输入数据进行解析的组件：因为不同的数据可能存储的数据格式不一样，这就必要有一个InputFormat组件来解析这些数据。默认环境下，它提供了一个TextInputFormat来表明数据。TextInputFormat会将文件的每一行表明成(key,value)，key代表每行偏移量，value代表每行数据内容。通常环境我们不必要自定义InputFormat，因为MapReduce提供了很多种InputFormat的实现，我们根据不同的数据格式，选择不同的InputFormat来表明就可以了。
2) 输入数据处理惩罚：使用Mapper来完成，这个Mapper是必须要实现的，因为根据不同的业务对数据有不同的处理惩罚。当缓冲区满了之后，数据被写入到当地磁盘上的一个临时文件中。
Shuffle阶段
（在Mapper和Reducer阶段之间）
3) 排序和分组：在Mapper任务完成之后，Shuffle阶段开始，这个阶段包括排序和分组操作，确保雷同键的所有值都在一起。
4) 压缩：为了减少网络传输的数据量，中间数据可能会被压缩。
5) 数据传输：根据Partitioner的决策，中间数据被传输到对应的Reducer节点。默认的环境下，Partitioner会对map输出的key进行hash取模，比如有6个Reduce Task，它就是模（mod）6，如果key的hash值为0，就选择第0个Reduce Task，如果key的hash值为1，就选择第一个Reduce Task。这样不同的map对雷同单词key，它的hash值取模是一样的，所以会交给同一个reduce来处理惩罚。
Reduce阶段
6) 数据归并：Reducer从不同的Mapper节点吸收数据，并进行归并。
7) 数据处理惩罚：Reducer的reduce函数被调用，对每个键的所有值进行处理惩罚，天生终极的效果。
8) 数据输出：Reducer的输出效果被写入到OutputFormat指定的输出位置，通常是HDFS。
【留意】在集群中，MapReduce是处在DataNode的节点上的，也就是说每个从节点都会有MapReduce。
   YARN

YARN（Yet Another Resource Negotiator）是Hadoop集群的资源管理器，它是在Hadoop 2.x版本中引入的，用来替代Hadoop 1.x中的传统MapReduce架构中的JobTracker和TaskTracker组件。YARN为Hadoop集群提供了一个更加通用的资源管理平台，不仅支持MapReduce作业，还支持其他类型的数据处理惩罚框架，如Apache Spark、Apache Flink等。
YARN采用了经典的Master-Slave架构, 此中ResourceManager对应主, NodeManager对应从。
YARN的系统架构如下：

图5 YARN架构（图片泉源于Hadoop官方文档） YARN重要有四个核心概念：
· Client：负责提交应用步伐到YARN集群，并处理惩罚与应用步伐相关的配置和提交细节，比如下令yarn jar大概Java接口。
· ResourceManager：YARN集群的资源管理器，负责整个集群的资源分配和调理。
· NodeManager：是YARN集群中的每个节点的署理，负责该节点的资源管理和任务执行。
· ApplicationMaster：是应用步伐的署理，负责与ResourceManager协商资源，并与NodeManager和谐任务的执行。每个提交到YARN集群的应用步伐都有一个ApplicationMaster实例。
Hadoop集群硬件架构

图6 Hadoop集群硬件架构如今再看这张图，想必各人已经是一目了然。
主节点上：摆设HDFS的NameNode组件，管理命名空间，管理客户端对文件的访问，负责跟踪数据块到DataNode的映射；摆设Yarn的ResourceManager组件，管理整个集群中的资源。
从节点上：摆设HDFS的DataNode组件，服务于客户端的读/写请求；摆设Yarn的NodeManager组件，监视本节点容器的资源使用环境，并将其陈诉给Resource-Manager；运行MapReduce的容器。
【留意】至此Hadoop基本盘已经说清晰了，除非去做云原生开发、运维这些工作，否则对于大数据开发、推荐算法的朋友们掌握这些已经够用了。
对于其他Hadoop生态的产品，浅浅拓展下（如图7），以后还会对常用的框架进行专门先容。

图7 Hadoop体系的分层架构
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

【大数据】深入浅出Hadoop，干货满满

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云