ToB企服应用市场:ToB评测及商务社交产业平台

标题: 【Hadoop】图解 Hadoop 生态体系及其组件 [打印本页]

作者: 北冰洋以北    时间: 2024-7-16 08:01
标题: 【Hadoop】图解 Hadoop 生态体系及其组件
在了解 Hadoop 生态体系及其组件之前,我们起首了解一下 Hadoop 的三大组件,即 HDFS、MapReduce、YARN,它们共同构成了 Hadoop 分布式盘算框架的 焦点


1.HDFS

HDFS 是 Hadoop 的分布式文件体系,旨在在便宜硬件上存储大型文件。它具有高度容错能力,并为应用程序提供高吞吐量。 HDFS 最得当那些拥有非常大数据集的应用程序。
Hadoop HDFS 文件体系提供 Master 和 Slave 架构。主节点运行 Namenode 守护进程,从节点运行 Datanode 守护进程。

2.MapReduce

MapReduce 是 Hadoop 的数据处置惩罚层,它将任务分成小块,并将这些小块分配给通过网络毗连的很多机器,并将所有事件组装成最后的事件数据集。 MapReduce 所需的基本细节是键值对。所有数据,无论是否结构化,在通过 MapReduce 模子传递之前都必要转换为键值对。在 MapReduce 框架中,处置惩罚单位被移至数据,而不是将数据移至处置惩罚单位。

3.YARN

YARN 代表 Yet Another Resource Negotiator,它是 Hadoop 集群的资源管理器。 YARN 用于实现 Hadoop 集群中的资源管理和作业调理。 YARN 的主要思想是将作业调理和资源管理拆分到各个进程中进行操作。
YARN 提供了两个守护进程;第一个称为资源管理器(Resource Manager),第二个称为节点管理器(Node Manager)。这两个组件都用于处置惩罚 YARN 中的数据盘算。资源管理器运行在 Hadoop 集群的主节点上,并协商所有应用程序中的资源,而节点管理器托管在所有从节点上。节点管理器的职责是监督容器、资源利用情况(例如 CPU、内存、磁盘和网络)并向资源管理器提供具体信息。

4.Hive

Hive 是 Hadoop 的 数据仓库 项目。 Hive 旨在促进非正式数据汇总、即席查询和大量数据的表明。借助 HiveQL,用户可以对 HDFS 中的数据集存储实行即席查询,并利用该数据进行进一步分析。 Hive还支持自定义的用户定义函数,用户可以利用这些函数来实行自定义分析。
让我们了解 Apache Hive 如何处置惩罚 SQL 查询:


5.Pig

Pig 由 Yahoo 开发,用于分析存储在 Hadoop HDFS 中的大数据。 Pig 提供了一个分析海量数据集的平台,该平台由用于通信数据分析应用程序的高级语言组成,并与用于评估这些程序的基础办法相链接。
Pig 具有以下关键属性:


6.Mahout

Mahout 是一个用于 创建机器学习应用程序的框架。它提供了一组丰富的组件,您可以通过选择的算法构建定制的推荐体系。 Mahout 的开发目的是提供实行、可扩展性和合规性。
以下是定义这些关键抽象的 Mahout 接口的重要包:


7.HBase

HBase 是继 Google Bigtable 之后创建的分布式、开源、版本化、非关系型数据库。它是 Hadoop 生态体系的重要组件,利用 HDFS 的容错功能,提供对数据的实时读写访问。 HBase 只管是数据库,但也可以称为数据存储体系,因为它不提供触发器、查询语言和二级索引等 RDBMS 功能。
HBase 具有以下功能:


8.Zookeeper

Zookeeper 充当 Hadoop 不同服务之间的协调者,用于维护配置信息、命名、提供分布式同步、提供群组服务。 Zookeeper 用于修复这些新部署在分布式情况中的应用程序的错误和竞争条件。

9.Sqoop

Sqoop 是一个数据传输工具,用于在 Hadoop 和关系数据库之间传输数据。它用于将数据从关系数据库管理体系(MySQL 或 Oracle)或大型机导入到 Hadoop(HDFS),并在 Hadoop MapReduce 中转换数据。它还用于将数据导出回 RDBMS。 Sqoop 利用 map-reduce 来导入和导出数据,因此它具有并行处置惩罚和容错特性。

10.Flume

Flume 是一种雷同于 Sqoop 的日志传输工具,但它实用于非结构化数据(日志),而 Sqoop 用于结构化和非结构化数据。 Flume 是一个可靠、分布式且可用的体系,用于高效地网络、聚合大量日志数据并将其从很多不同的源移动到 HDFS。它不仅限于日志数据聚合,还可以用于传输大量事件数据。
Flume 具有以下三个组件:


11.Oozie

Oozie 是一个 工作流调理框架,用于调理 Hadoop Map / Reduce 和 Pig 作业。 Apache Oozie 工作流程是 Hadoop Map / Reduce 作业、Pig 作业等操作的集合,排列在控制依赖 DAG(有向无环图)中。从一个动作到另一个动作的 “控制依赖性” 表明,除非第一个动作完成,否则另一个动作不会开始。
Oozie 工作流有以下两个节点,即 控制流节点操作节点


12.Ambari

Ambari 用于配置、管理和监控 Apache Hadoop 集群。
它向体系管理员提供以下任务:


13.Spark

Spark 是一个通用且快速的集群盘算体系。它是一个非常强大的大数据工具。 Spark 提供了 Python、Scala、Java、R 等多种语言的丰富 API。 Spark 支持 Spark SQL、GraphX、MLlib、Spark Streaming、R 等高级工具。这些工具用于实行不同类型的操作,我们将在 Spark 部分中看到。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4