【大数据Hive】hive 表数据优化使用详解

打印 上一主题 下一主题

主题 550|帖子 550|积分 1650

目次

一、前言
二、hive 常用数据存储格式
2.1 文件格式-TextFile
2.1.1 操作演示
2.2 文件格式 - SequenceFile
2.2.1 操作演示
2.3 文件格式 -Parquet
2.3.1 Parquet简介
2.3.2 操作演示
2.4 文件格式-ORC
2.4.1 ORC介绍
2.4.2 操作演示
三、hive 存储数据压缩优化
3.1 数据压缩-概述
3.2 数据压缩的优缺点
3.2.1 压缩的长处
3.2.2 压缩的缺点
3.3 常用压缩格式和压缩算法
3.3.1 Hadoop中各种压缩算法性能对比
3.3.2 压缩参数设置
3.3 操作演示
3.3.1 设置压缩参数
3.3.2 创建表,指定为textfile格式
3.3.3 创建表,指定为orc格式
四、hive 存储优化
4.1 避免小文件天生
4.2 ORC文件索引
4.2.1 Row Group Index
4.2.2 焦点参数设置
4.2.3 操作演示
4.2.4 Bloom Filter Index
4.2.5 操作演示
4.3 ORC矢量化查询
五、写在文末


一、前言

通过之前的学习了解到,hive自己并不存储数据,其数据存储的本质还是HDFS,所有的数据读写都基于HDFS的文件来实现,因此对于hive表数据的优化可以归结为对hdfs上面存储数据相关的优化,好比数据存储格式的选择等。

二、hive 常用数据存储格式


为了提高对HDFS文件读写的性能,Hive提供了多种文件存储格式:TextFile、SequenceFile、ORC、Parquet等,差别的文件存储格式具有差别的存储特点,有的可以降低存储空间,有的可以提高查询性能。

Hive的文件格式在建表时指定,默认是TextFile,在hive的建表语法树中,在 [STORED AS file_format] 这一项中可以进行指定;


2.1 文件格式-TextFile


TextFile是Hive中默认的文件格式,存储形式为按行存储。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

美食家大橙子

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表