复习打卡大数据篇——Apache Hadoop

打印 上一主题 下一主题

主题 819|帖子 819|积分 2467

1. Hadoop简介

Hadoop概念:
Hadoop是一个分布式系统根本架构,重要是为了解决海量数据的存储和海量数据的分析计算题目。组件包括:HDFS,是一个具有高可靠性、高吞吐量的分布式文件系统,用于数据存储;MapReduce用于处理业务逻辑运算;YARN负责作业调度与集群资源管理。
Hadoop特性:


  • 扩容能力:Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计的节点中。
  • 本钱低:Hadoop通过普通便宜的机器构成服务器集群来分发以及处理数据,以至于本钱很低。
  • 高效率:通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。
  • 可靠性:能自动维护数据的多份复制,而且在任务失败后能自动地重新部署(redeploy)计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。

Hadoop集群简介:
 HADOOP集群具体来说包罗两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。
HDFS集群:解决了海量数据存储 分布式存储系统


  • 主脚色:namenode(NN)
  • 从脚色:datanode(DN)
  • 主脚色辅助脚色"秘书脚色":secondarynamenode (SNN)
YARN集群:集群资源管理 任务调度


  • 主脚色:resourcemanager(RM)
  • 从脚色:nodemanager(NM)

Hadoop部署模式:


  • Standalone mode(独立模式):又称为单机模式,仅1个机器运行1个java进程,重要用于调试。
  • Pseudo-Distributed mode(伪分布式模式):也是在1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager,但分别启动单独的java进程,重要用于调试。
  • Cluster mode(集群模式):集群模式重要用于生产情况部署。会使用N台主机构成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署在不同的机器上。
  • 高可用(持续可用)集群 HA :在分布式的模式下给主脚色设置备份脚色,实现了容错的功能 解决了单点故障,保证集群持续可用性。

集群webUI:
一旦Hadoop集群启动并运行,可以通过web-ui进行集群查看:


  • NameNode    http://nn_host:port/    默认9870
  • ResourceManager    http://rm_host:port/    默认 8088
  • jobhistoryserver     默认 19888


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

泉缘泉

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表