IT评测·应用市场-qidao123.com

标题: 【Hadoop】图解 Hadoop 生态体系及其组件 [打印本页]

作者: 北冰洋以北 时间: 2024-7-16 08:01
标题: 【Hadoop】图解 Hadoop 生态体系及其组件
在了解 Hadoop 生态体系及其组件之前，我们起首了解一下 Hadoop 的三大组件，即 HDFS、MapReduce、YARN，它们共同构成了 Hadoop 分布式盘算框架的焦点。

HDFS（Hadoop Distributed File System）：HDFS 是 Hadoop 的 分布式文件体系，它是将大规模数据分散存储在多个节点上的基础。HDFS 主要负责数据的存储和管理，可以将大数据集分成多个数据块，并将这些数据块分配到不同的盘算节点上存储，提高数据的可靠性和处置惩罚服从。
MapReduce：MapReduce 是 Hadoop 的 分布式盘算框架，它提供了一种简朴的编程模子，通过将大规模数据分解成多个小任务并行处置惩罚，可以大大提高数据处置惩罚的服从。MapReduce 模子包罗 Map 和 Reduce 两个阶段，此中 Map 阶段将数据分解成多个小块进行处置惩罚，Reduce 阶段将处置惩罚结果合并。
YARN（Yet Another Resource Negotiator）：YARN 是 Hadoop 的 资源管理器，它负责为多个应用程序分配和管理盘算资源，可以有效地提高盘算资源的利用率。YARN 可以将集群中的盘算资源划分为多个容器，为不同的应用程序提供得当的资源，并监控和管理各个应用程序的运行状态。

1.HDFS

HDFS 是 Hadoop 的分布式文件体系，旨在在便宜硬件上存储大型文件。它具有高度容错能力，并为应用程序提供高吞吐量。 HDFS 最得当那些拥有非常大数据集的应用程序。
Hadoop HDFS 文件体系提供 Master 和 Slave 架构。主节点运行 Namenode 守护进程，从节点运行 Datanode 守护进程。

2.MapReduce

MapReduce 是 Hadoop 的数据处置惩罚层，它将任务分成小块，并将这些小块分配给通过网络毗连的很多机器，并将所有事件组装成最后的事件数据集。 MapReduce 所需的基本细节是键值对。所有数据，无论是否结构化，在通过 MapReduce 模子传递之前都必要转换为键值对。在 MapReduce 框架中，处置惩罚单位被移至数据，而不是将数据移至处置惩罚单位。

3.YARN

YARN 代表 Yet Another Resource Negotiator，它是 Hadoop 集群的资源管理器。 YARN 用于实现 Hadoop 集群中的资源管理和作业调理。 YARN 的主要思想是将作业调理和资源管理拆分到各个进程中进行操作。
YARN 提供了两个守护进程；第一个称为资源管理器（Resource Manager），第二个称为节点管理器（Node Manager）。这两个组件都用于处置惩罚 YARN 中的数据盘算。资源管理器运行在 Hadoop 集群的主节点上，并协商所有应用程序中的资源，而节点管理器托管在所有从节点上。节点管理器的职责是监督容器、资源利用情况（例如 CPU、内存、磁盘和网络）并向资源管理器提供具体信息。

4.Hive

Hive 是 Hadoop 的 数据仓库 项目。 Hive 旨在促进非正式数据汇总、即席查询和大量数据的表明。借助 HiveQL，用户可以对 HDFS 中的数据集存储实行即席查询，并利用该数据进行进一步分析。 Hive还支持自定义的用户定义函数，用户可以利用这些函数来实行自定义分析。
让我们了解 Apache Hive 如何处置惩罚 SQL 查询：

用户将利用命令行或 Web UI 向驱动程序（例如 ODBC / JDBC）提交查询。
驱动程序将借助查询编译器来解析查询以查抄语法 / 查询筹划。
编译器将向元数据数据库发送元数据请求。
作为响应，Metastore 将向编译器提供元数据。
现在编译器的任务是验证规范并将筹划重新发送给驱动程序。
现在驱动程序将向实行引擎发送实行筹划。
该程序将作为映射缩减作业实行。实行引擎将作业发送到名称节点作业跟踪器，并为该作业分配一个存在于数据节点中的任务跟踪器，并在此处实行查询。
查询实行后，实行引擎将从数据节点吸收结果。
实行引擎将结果值发送给驱动程序。
驱动程序会将结果发送到 Hive 接口（用户）。

5.Pig

Pig 由 Yahoo 开发，用于分析存储在 Hadoop HDFS 中的大数据。 Pig 提供了一个分析海量数据集的平台，该平台由用于通信数据分析应用程序的高级语言组成，并与用于评估这些程序的基础办法相链接。
Pig 具有以下关键属性：

优化机会：Pig 提供了查询优化，帮助用户专注于意义而不是服从。
可扩展性：Pig 提供了创建用户定义函数以进行特殊用途处置惩罚的功能。

6.Mahout

Mahout 是一个用于 创建机器学习应用程序的框架。它提供了一组丰富的组件，您可以通过选择的算法构建定制的推荐体系。 Mahout 的开发目的是提供实行、可扩展性和合规性。
以下是定义这些关键抽象的 Mahout 接口的重要包：

DataModel
UserSimilarity
ItemSimilarity
UserNeighborhood

7.HBase

HBase 是继 Google Bigtable 之后创建的分布式、开源、版本化、非关系型数据库。它是 Hadoop 生态体系的重要组件，利用 HDFS 的容错功能，提供对数据的实时读写访问。 HBase 只管是数据库，但也可以称为数据存储体系，因为它不提供触发器、查询语言和二级索引等 RDBMS 功能。
HBase 具有以下功能：

它提供持续的模块化可扩展性。
它提供定期的读取和写入。
直观且可配置的表分片。
RegionServer 之间的自动故障转移支持。
它提供中央基类，用于支持带有 Apache HBase 表的 Hadoop MapReduce 作业。
利用 Java API 进行客户端访问很简朴。
查询谓词通过服务器端过滤器下推。
它提供了 Thrift 网关和 REST-ful Web 服务，支持 XML、Protobuf 和二进制数据编码选择。

8.Zookeeper

Zookeeper 充当 Hadoop 不同服务之间的协调者，用于维护配置信息、命名、提供分布式同步、提供群组服务。 Zookeeper 用于修复这些新部署在分布式情况中的应用程序的错误和竞争条件。

9.Sqoop

Sqoop 是一个数据传输工具，用于在 Hadoop 和关系数据库之间传输数据。它用于将数据从关系数据库管理体系（MySQL 或 Oracle）或大型机导入到 Hadoop（HDFS），并在 Hadoop MapReduce 中转换数据。它还用于将数据导出回 RDBMS。 Sqoop 利用 map-reduce 来导入和导出数据，因此它具有并行处置惩罚和容错特性。

10.Flume

Flume 是一种雷同于 Sqoop 的日志传输工具，但它实用于非结构化数据（日志），而 Sqoop 用于结构化和非结构化数据。 Flume 是一个可靠、分布式且可用的体系，用于高效地网络、聚合大量日志数据并将其从很多不同的源移动到 HDFS。它不仅限于日志数据聚合，还可以用于传输大量事件数据。
Flume 具有以下三个组件：

Source
Channel
Sink

11.Oozie

Oozie 是一个 工作流调理框架，用于调理 Hadoop Map / Reduce 和 Pig 作业。 Apache Oozie 工作流程是 Hadoop Map / Reduce 作业、Pig 作业等操作的集合，排列在控制依赖 DAG（有向无环图）中。从一个动作到另一个动作的 “控制依赖性” 表明，除非第一个动作完成，否则另一个动作不会开始。
Oozie 工作流有以下两个节点，即 控制流节点 和 操作节点。

控制流节点（Control Flow Nodes）：这些节点用于提供控制工作流实行路径的机制。
操作节点（Action Node）：操作节点提供了一种机制，工作流通过该机制触发盘算 / 处置惩罚任务的实行，例如 Hadoop MapReduce、HDFS、Pig、SSH、HTTP 作业。

12.Ambari

Ambari 用于配置、管理和监控 Apache Hadoop 集群。
它向体系管理员提供以下任务：

Hadoop 集群的配置：它提供了一种在恣意数目的节点上安装 Hadoop 服务的媒介。它还处置惩罚集群的 Hadoop 服务配置。
Hadoop 集群的管理：它提供了一个中央控制来管理 Hadoop 服务，例如整个集群的启动、停止和重新配置。
Hadoop 集群监控：它提供了一个用于监控 Hadoop 集群的仪表板（例如节点关闭、剩余磁盘空间不敷等）。

13.Spark

Spark 是一个通用且快速的集群盘算体系。它是一个非常强大的大数据工具。 Spark 提供了 Python、Scala、Java、R 等多种语言的丰富 API。 Spark 支持 Spark SQL、GraphX、MLlib、Spark Streaming、R 等高级工具。这些工具用于实行不同类型的操作，我们将在 Spark 部分中看到。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/)