ToB企服应用市场:ToB评测及商务社交产业平台

标题: 复习打卡大数据篇——Apache Hadoop [打印本页]

作者: 泉缘泉 时间: 2024-12-22 09:23
标题: 复习打卡大数据篇——Apache Hadoop
1. Hadoop简介

Hadoop概念：
Hadoop是一个分布式系统根本架构，重要是为了解决海量数据的存储和海量数据的分析计算题目。组件包括：HDFS，是一个具有高可靠性、高吞吐量的分布式文件系统，用于数据存储；MapReduce用于处理业务逻辑运算；YARN负责作业调度与集群资源管理。
Hadoop特性：

扩容能力：Hadoop是在可用的计算机集群间分配数据并完成计算任务的，这些集群可用方便的扩展到数以千计的节点中。
本钱低：Hadoop通过普通便宜的机器构成服务器集群来分发以及处理数据，以至于本钱很低。
高效率：通过并发数据，Hadoop可以在节点之间动态并行的移动数据，使得速度非常快。
可靠性：能自动维护数据的多份复制，而且在任务失败后能自动地重新部署（redeploy）计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。

Hadoop集群简介：
HADOOP集群具体来说包罗两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起。
HDFS集群：解决了海量数据存储分布式存储系统

主脚色：namenode（NN）
从脚色：datanode（DN）
主脚色辅助脚色"秘书脚色"：secondarynamenode （SNN）

YARN集群：集群资源管理任务调度

主脚色：resourcemanager（RM）
从脚色：nodemanager（NM）

Hadoop部署模式：

Standalone mode（独立模式）：又称为单机模式，仅1个机器运行1个java进程，重要用于调试。
Pseudo-Distributed mode（伪分布式模式）：也是在1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager，但分别启动单独的java进程，重要用于调试。
Cluster mode（集群模式）：集群模式重要用于生产情况部署。会使用N台主机构成一个Hadoop集群。这种部署模式下，主节点和从节点会分开部署在不同的机器上。
高可用（持续可用）集群 HA ：在分布式的模式下给主脚色设置备份脚色，实现了容错的功能解决了单点故障，保证集群持续可用性。

集群webUI：
一旦Hadoop集群启动并运行，可以通过web-ui进行集群查看：

NameNode http://nn_host:port/ 默认9870
ResourceManager http://rm_host:port/ 默认 8088
jobhistoryserver 默认 19888

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)