Hadoop期末复习一(纸质)
目次一、名次解释(每题3分,共15分)
1、大数据
2、5V特征
3、SSH
4、HDFS
5、名称节点
6、数据节点
7、元数据
答1:
答2:
8、倒排索引
9、单点故障
10、高可用
11、数据堆栈
二、简答题(每个6分,共30分)
1、简述Hadoop的优点及其含义
2、简述独立模式、伪分布模式和完全分布模式部署Hadoop的区别
3、简述HDFS的结实性
4、简述Yarn基本构架的构成及其作用
5、简述不同类型ZNode的区别
6、简述Hadoop高可用集群初次启动时的步调
答1:
答2:
7、简述Hive中分区和桶的作用
一、名次解释(每题3分,共15分)
共计11题,考试时8选5,我背8题,有3题没背,效果考试都有,8题选5个答,3个不会,不影响,等于我只需要背8个,我真是个天才hhhhh。
如果你有更好的答案或答复,请一定告知,将对其举行修正,谢谢!!!
本文为第一版,综合案例和编程根据情况后续更新。
1、大数据
是一种规模巨大,类型复杂多样,再获取、存储、管理分析方面都远宏大于传统/数据库软件工具能力范围的数据集合。
2、5V特征
大数据的5V特征是指五个V开头的单词,从五个方面准确、形象的介绍了大数据的特征:大量(Volume)、真实(Veracity)、多样(Variety)、低代价密度(Value)、高速(velocity)。
3、SSH
SSH(Secure Sheel)是一种网络安全协议,通过加密和认证机制实现安全访问、文件传输和长途登陆等业务。
4、HDFS
HDFS是一种分布式文件体系,是Hadoop体系中的重要构成部门,重要用于存储和管理海量数据文件。
5、名称节点
名称节点 (NameNode) 在HDFS中通常称为主节点,负责管理分布式文件体系的命名空间和访问控制,保存了两个焦点的数据布局Fsimage文件和EditLog文件
6、数据节点
Hadoop集群中的从节点,负责存储和管理文件体系的数据块。
7、元数据
答1:
元数据(MetaData)用于记载HDFS文件体系的相关信息,描述数据的属性、来源、布局等,帮助理解管理数据。——(注:元数据可以理解为数据的数据)
你也可以这样答复:
答2:
元数据(Metadata)是关于数据的数据,可以简单地理解为描述数据特征的信息。在Hadoop中,元数据重要指的是对存储在Hadoop分布式文件体系(HDFS)中的数据文件的管理信息。它包括文件的名称、位置、大小、权限等基本信息,以及怎样访问这些文件的信息。
8、倒排索引
是文档检索体系中最常见的数据布局,被广泛应用于全文搜索引擎。通过记载单词在文档中存储位置的映射,提供了可以根据内容查找文档的方式。
9、单点故障
在HDFS集群中,只能有一个NameNode主节点,其运行状态决定HDFS集群是否可用,一旦主节点发生故障,则导致HDFS集群不可用。
10、高可用
为解决单点故障,答应存在多个NameNode节点,具有恢复和容错能力,当单点故障发生时,通过ZooKeeper从多个Standby状态的NameNode节点中推选出一个,使其状态改为activr,确保集群或服务的连续性和稳固性。
11、数据堆栈
数据堆栈是一个面向主题、集成的、相对稳固和反应汗青变革的数据集合,用于企业或组织的决策分析。
二、简答题(每个6分,共30分)
1、简述Hadoop的优点及其含义
(1)低本钱,可用多台廉价机组建集群,分布式处置惩罚大数据,低落本钱。
(2)高可靠性,自动保存数据副本,避免数据丢失。
(3)高容错性,自动检测并应对故障,通过任务转移,防止任务失败。
(4)高服从,Hadoop可高效的实行并行盘算,且在各个盘算机中动态地移动盘算。
(5)高扩展性,可随时添加更多的盘算机,增加集群存储,盘算能力。
2、简述独立模式、伪分布模式和完全分布模式部署Hadoop的区别
(1)独立模式:本地独立模式不举行任何设置,是Hadoop的默认工作模式,全部组件都在同一台呆板运行,实用于学习和体验。
(2)伪分布模式:也是在一台单机上运行,通过单节点模仿分布式,但部署的Hadoop集群是一个伪分布式体系,适合本地开辟和验证。
(3)完全分布模式:是一种在多台盘算机JVM进程中运行Hadoop集群的工作模式,全部组件分布在多台呆板上,部署的集群是完全分布式体系,实用于生产情况。
3、简述HDFS的结实性
其结实性可表现为:在HDFS出现故障的情况下可靠地存储数据,其运用了心跳机制、副本机制、数据完整性校验、安全模式和快照 5 种战略保证了数据存储的可靠性。
4、简述Yarn基本构架的构成及其作用
(1)ResourceManager:负责整个集群的资源管理和调度,包括接收客户端请求、启动和监控ApplicationMaster等。
(2)NodeManager:管理单个节点上的资源,处置惩罚来自ResourceManager的资源请求,并根据ApplicationMaster的指令启动或克制容器。
(3)ApplicationMaster:每个应用步伐在Yarn上运行时都有一个对应的ApplicationMaster,负责协商资源、监控应用步伐状态和举行容错处置惩罚。
(4)Container:是Yarn中资源分配的基本单元,封装了任务运行所需的资源情况。
5、简述不同类型ZNode的区别
(1)永久性ZNode:长期存储数据,除非被用户明确删除,否则一直存在,支持子节点。
(2)临时性ZNode:与客户端会话绑定,会话结束时自动删除,不支持子节点,用于临时数据存储。
(3)次序性ZNode:创建时自动附加唯一序列号,确保名称唯一性,实用于需要唯一标识符的场景。
6、简述Hadoop高可用集群初次启动时的步调
答1:
首先在三台虚拟机实行(hdfs --daemon start journalnode)启动 journalnode ;然后在Hadoop1中实行命令(hdfs namenode -format
)格式化HDFS文件体系;然后实行(scp -r /export/data/hadoop/namenode/ hadoop2: /export/data/hadoop)同步NameNode,确保初次启动HDFS时,两个NameNode存储FSImage文件一致。再通过(hdfs zkfc -formatZK)格式化ZKFC,保证ZooKeeper集群能够通过ZKFC为HDFS提供高可用,末了在Hadoop1上通过Hadoop提供的一键启动脚本(start-dfs.sh)和(start-yarn.sh)分别启动HDFS 和 YARN。
答2:
(1)启动JournalNode
分别在三台虚拟机种实行命令
hdfs --daemon start journalnode (2)格式化HDFS文件体系
在Hadoop1上实行
hdfs namenode -format
(3)同步NameNode
在Hadoop1中实行
scp -r /export/data/hadoop/namenode/ hadoop2: /export/data/hadoop (4)格式化ZKFC
在Hadoop1中实行
hdfs zkfc -formatZK (5)启动HDFS和YARN
在Hadoop1上通过Hadoop提供的一键启动脚本(start-dfs.sh)和(start-yarn.sh)分别启动HDFS 和 YARN。
start-dfs.sh
start-yarn.sh 7、简述Hive中分区和桶的作用
分区是根据指定分区规则将表的数据划分为多个独立的数据举行存储,每个独立的数据视为一个分区,每个分区存储在HDFS文件体系的不同目次。通过查询分区获取所需数据,避免全表扫描,进步查询性能。
桶是根据指定分桶规则将表的数据随机、匀称地划分到不同的桶举行存储,每个桶存储在HDFS文件体系地不同文件。有助于数据的平衡分布,避免数据倾斜。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]