ToB企服应用市场:ToB评测及商务社交产业平台

标题: 1.2 Hadoop简介-hadoop-最全最完整的保姆级的java大数据学习资料 [打印本页]

作者: 知者何南    时间: 2022-12-3 18:38
标题: 1.2 Hadoop简介-hadoop-最全最完整的保姆级的java大数据学习资料
目录

1.2 Hadoop简介

1.2.1 什么是Hadoop

​        Hadoop 是一个适合大数据的分布式存储和计算平台
​        如前所述,狭义上说Hadoop就是一个框架平台,广义上讲Hadoop代表大数据的一个技术生态 圈,包括很多其他软件框架
​        Hadoop生态圈技术栈
​        Hadoop(HDFS + MapReduce + Yarn)
​        Hive 数据仓库工具
​        HBase 海量列式非关系型数据库
​        Flume 数据采集工具
​        Sqoop ETL工具
​        Kafka 高吞吐消息中间件
​        ......
1.2.2 Hadoop的起源

Hadoop 的发展历程可以用如下过程概述:
Nutch —>  Google论文(GFS、MapReduce)—> Hadoop产生 —>  成为Apache顶级项目—>  Cloudera公司成立(Hadoop快速发展)
​        Google的三篇论文(三驾马车)
​        GFS:Google的分布式文件系统(Google File System)
​        MapReduce:Google的分布式计算框架
​        BigTable:大型分布式数据库
​        发展演变关系:
​        GFS —> HDFS
​        Google MapReduce —> Hadoop MapReduce
​        BigTable —> HBase

1.2.3 Hadoop的特点


1.2.4 Hadoop的发行版本

​        目前Hadoop发行版非常多,有Cloudera发行版(CDH)、Hortonworks发行版、华为发行版、 Intel发行版等,所有这些发行版均是基于Apache Hadoop衍生出来的,之所以有这么多的版本,是由Apache Hadoop的开源协议决定的(任何人可以对其进行修改,并作为开源或商业产品发布/销售)
​        企业中主要用到的三个版本分别是:Apache Hadoop版本(最原始的,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”)、 Hortonworks版本(Hortonworks Data Platform,简称“HDP”)。
1.2.5 Apache Hadoop版本更迭

0.x 系列版本:Hadoop当中最早的一个开源版本,在此基础上演变而来的1.x以及2.x的版本
1.x 版本系列:Hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等
2.x 版本系列:架构产生重大变化,引入了yarn平台等许多新特性
3.x 版本系列:EC技术、YARN的时间轴服务等新特性

1.2.6 第六节 Hadoop的优缺点

Hadoop的优点
Hadoop的缺点

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4