大数据开辟工程师必懂的Hive调优与实战保姆指南
目录第一章 基于 Hadoop 的数据仓库 Hive 基础知识
1.1 概述
一、数据仓库的定义与传统数据仓库的挑战
二、Hive 的诞生配景与作用
三、Hive 的主要特点
四、Hive 的实际应用场景
五、Hive 在大数据处理惩罚和分析范畴的紧张职位
1.2 Hive 系统架构
一、Hive 系统架构的组成部分
二、用户接口
三、元数据存储
四、驱动器
五、实验引擎
六、Hadoop 集群
七、Hive 系统架构的紧张性
第二章 HiveSQL 语法
2.1 HiveSQL 语法的特点
一、类 SQL 语法带来的优势
二、扩展性的紧张意义
三、优化与 Hadoop 的集成
2.2 HiveSQL 语法的利用方法
一、创建表
二、加载数据
三、查询数据
四、优化查询性能
2.3 HiveSQL 与传统 SQL 的区别
一、数据范例支持的差异
二、函数库差异
三、性能优化本事的不同
第三章 Hive 性能优化
3.1 参数调解:优化的关键武器
3.2 使命优化:提拔性能的焦点环节
第四章 Hive 性能优化之数据倾斜专题
4.1 数据倾斜的定义与影响
4.2 产生数据倾斜的根本原因
4.3 解决数据倾斜的多种方案
第五章 HiveSQL 优化十二条发起
一、公道的数据分区:精准定位,减少扫描
二、桶化:匀称分布,避免倾斜
三、索引的利用:加速查询,精准定位
四、分解查询与子查询:优化实验计划,减少盘算
五、数据写入优化:高效写入,提拔性能
六、监控和调优使命实验:实时掌控,实时优化
七、公道设置 Hive 设置参数
八、优化数据存储格式
九、利用 Hive 的压缩功能
十、优化表计划
十一、定期整理无用数据
十二、持续学习和优化
第六章 Hive 调优实战案例分析
6.1 案例一:电商贩卖数据分析
6.2 案例二:金融风险分析
6.3 案例三:社交媒体数据分析
第一章 基于 Hadoop 的数据仓库 Hive 基础知识
1.1 概述
一、数据仓库的定义与传统数据仓库的挑战
数据仓库是什么呢?简朴来说,它是一个面向主题的、集成的、相对稳固的、反映汗青变化的数据聚集,主要目的是支持管理决策过程。在传统的数据仓库情况中,随着数据量不断地增长,单节点的关系型数据仓库逐渐袒露出一些问题。当处理惩罚海量数据时,它们会面临性
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]