ToB企服应用市场:ToB评测及商务社交产业平台

标题: hadoop基础知识分享(一) [打印本页]

作者: 尚未崩坏    时间: 2024-9-9 01:09
标题: hadoop基础知识分享(一)
写在前面

今天学习hadoop部分的知识。
Hadoop 概述

Hadoop 是一个适合海量数据的分布式存储和分布式盘算的平台。Hadoop 的处理思想是“分而治之”。它劈头于 Google 的三篇文章:Google FS(GFS),MapReduce,BigTable。Hadoop 主要包罗三个核心组件:
Hadoop 分布式搭建

分布式存储

HDFS 主从结构

HDFS 具有主从架构。HDFS 集群由单个名称节点(NameNode)和许多数据节点(DataNode)组成:
介绍

在分布式存储系统中,分散在差别节点中的数据大概属于同一个文件。为了组织浩繁的文件,可以将文件放到差别的文件夹中,文件夹可以一级一级地包罗。这种组织情势称为命名空间(namespace)。命名空间管理整个服务器集群中的所有文件。
主从结构

用户操纵时,客户端首先与主节点交互,查询数据存储位置,然后从相应的从节点读取数据。主节点将整个命名空间信息保存在内存中,因此需要更多内存来处理更多的文件。
块(Block)

分布式盘算

YARN(Yet Another Resource Negotiator)

YARN 负责资源调度和管理,采用主从结构:
资源管理

Container

MR(MapReduce)

MapReduce 是一个依赖磁盘 I/O 的批处理盘算模型,也具有主从结构:
Hadoop 下令

集群管理

单独启动和停止进程

文件操纵

文件管理

HDFS 干系概念

HDFS 架构 - 元数据

这些文件保存在 Linux 文件系统中,路径由 hdfs-site.xml 的 dfs.namenode.name.dir 属性指定。
SecondaryNameNode 的作用

Checkpoint 发起时机

HDFS 架构 - Block 存储

HDFS API 使用

HDFS 写流程

HDFS 写流程包括数据写入 HDFS 的过程,数据被分成多个块并存储到差别的 DataNode 上。
HDFS 读流程

HDFS 读流程包括从 HDFS 中读取数据的过程,通过 NameNode 获取数据块的位置,然后从相应的 DataNode 读取数据。
RPC 协议

Hadoop是什么,有哪些组件,分别介绍一下?

Hadoop 是一个处理海量数据的分布式存储和分布式盘算平台,主要包括三个核心组件:HDFS、YARN 和 MapReduce。它们劈头于谷歌发布的三篇文章:GFS 对应 HDFS,BigTable 对应 HBase,MapReduce 对应 Hadoop 中的 MapReduce。
HDFS架构?HDFS原理?

HDFS(Hadoop Distributed File System)

HDFS 是 Hadoop 中的分布式文件存储系统,它会将每个文件以“分而治之”的思想来放到差别的数据节点中。HDFS 采用主从结构:
如果需要读取这些数据,需要通过主节点来获取这些块的详细位置,组装好文件才能完备地读到 HDFS 中的文件。主节点也是用户进行读写数据哀求的桥梁。当客户端有读写哀求的时候,客户端会首先通过 RPC 协调来远程调用 NameNode 来获取一个数据列表,这个列表中存储了每个 DataNode 中每个块的详细信息。
DataNode 的信息由 NameNode 管理,NameNode 也可以存在多个。如果 HDFS 中的 NameNode 掉线,只有一个主节点会使整个数据都不能用。创建第二个 NameNode 可以减少数据不能用的大概。Hadoop 中的机制会在 NameNode 掉线之后,找一个空闲的 DataNode 来充当 NameNode 继续运作,当然,这样做如果没有多副本,这个空闲的 DataNode 中的数据就无法读取了。
HDFS 初始化下令?
  1. hdfs namenode -format
复制代码
Yarn启动后有什么进程?Yarn的架构?

YARN(Yet Another Resource Negotiator)

YARN 是用来进行资源的管理和任务调度的一个框架,主要用于协调每个组件之间的资源调度,使每个进程都可以顺遂运作。YARN 启动后,主节点会有一个 ResourceManager,从节点上会有 NodeManager。
YARN 架构

Container是什么?

YARN 中的 Container 是资源的抽象,它封装了某个节点上一定量的资源(CPU 和内存)。Container 由 ApplicationMaster 向 ResourceManager 申请,由 ResourceManager 中的资源调度器异步分配给 ApplicationMaster。Container 的运行是由 ApplicationMaster 向资源所在的 NodeManager 发起的。
Block大小为什么是128M?

Block 大小

块的默认大小为 128MB。这样做是为了优化分布式存储和盘算框架的性能,减少元数据开销,并提高数据本地性,从而提拔整体系统的效率和吞吐量。如果块的大小设置为 1MB,会存在多个块,盘算时读写效率会低落。如果块的大小设置为 1GB,但有多个 100MB 的文件,会生成多个存储容量为 1GB 的块,这样块文件的空间利用率会很低。若块的大小小于 1MB,一个 1MB 的文件也会分配一个 1GB 的块,导致空间浪费。
SecondaryNameNode的作用?

SecondaryNameNode 的作用是资助 NameNode 完成元数据信息合并,从角色上看,属于 NameNode 的“秘书”。它的工作流程如下:
文件阐明

MapReduce的架构?怎样提交MR任务?

MapReduce 是一个依赖磁盘 I/O 的批处理盘算模型,也具有主从结构:
提交 MR 任务的步骤

hdfs读写过程是怎么样的?

读取数据

写入数据


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4