Hadoop简介

打印 上一主题 下一主题

主题 839|帖子 839|积分 2517

1. Hadoop简介

   官网:http://hadoop.apache.org
  1.1 Hadoop架构



  • Hadoop由三个模块构成:分布式存储HDFS、分布式计算MapReduce、资源调度引擎YARN

1.2 Hadoop汗青




  • Hadoop作者Doug Cutting
  • Apache Lucene是一个文本搜索系统库
  • Apache Nutch作为前者的一部门,主要包罗web爬虫、全文检索;2003年“谷歌分布式文件系统GFS”论文,2004年开源版本NDFS
  • 2004年“谷歌MapReduce”论文,2005年Nutch开源版MapReduce

2、更多内容:

Hadoop相关



  • HDFS分布式文件系统
  • MR(MapReduce)离线数据处理
  • YARN集群资源管理
Hive相关



  • Hive-01之数仓、架构、数据范例、DDL、内外部表
  • Hive-02之分桶表、数据导入导出、静动态分区、查询、排序、hiveserver2
  • Hive-03之传参、常用函数、explode、lateral view、行专列、列转行、UDF
  • Hive-04之存储格式、SerDe、企业级调优
  • Hive-05之查询 分组、排序、case when、 什么情况下Hive可以制止举行MapReduce
  • Hive-06之函数 聚合Cube、Rollup、窗口函数
  • Hive-07之企业级调优
  • Hive-08之数据仓库之建模、分析
  • Hive-09之主流文件存储格式对比
  • Hive-10之数据倾斜处理办法

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

万万哇

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表