IT评测·应用市场-qidao123.com

标题: 【大数据Hive】hive 表数据优化使用详解 [打印本页]

作者: 美食家大橙子    时间: 2024-7-23 15:53
标题: 【大数据Hive】hive 表数据优化使用详解
目次

一、前言
二、hive 常用数据存储格式
2.1 文件格式-TextFile
2.1.1 操作演示
2.2 文件格式 - SequenceFile
2.2.1 操作演示
2.3 文件格式 -Parquet
2.3.1 Parquet简介
2.3.2 操作演示
2.4 文件格式-ORC
2.4.1 ORC介绍
2.4.2 操作演示
三、hive 存储数据压缩优化
3.1 数据压缩-概述
3.2 数据压缩的优缺点
3.2.1 压缩的长处
3.2.2 压缩的缺点
3.3 常用压缩格式和压缩算法
3.3.1 Hadoop中各种压缩算法性能对比
3.3.2 压缩参数设置
3.3 操作演示
3.3.1 设置压缩参数
3.3.2 创建表,指定为textfile格式
3.3.3 创建表,指定为orc格式
四、hive 存储优化
4.1 避免小文件天生
4.2 ORC文件索引
4.2.1 Row Group Index
4.2.2 焦点参数设置
4.2.3 操作演示
4.2.4 Bloom Filter Index
4.2.5 操作演示
4.3 ORC矢量化查询
五、写在文末


一、前言

通过之前的学习了解到,hive自己并不存储数据,其数据存储的本质还是HDFS,所有的数据读写都基于HDFS的文件来实现,因此对于hive表数据的优化可以归结为对hdfs上面存储数据相关的优化,好比数据存储格式的选择等。

二、hive 常用数据存储格式


为了提高对HDFS文件读写的性能,Hive提供了多种文件存储格式:TextFile、SequenceFile、ORC、Parquet等,差别的文件存储格式具有差别的存储特点,有的可以降低存储空间,有的可以提高查询性能。

Hive的文件格式在建表时指定,默认是TextFile,在hive的建表语法树中,在 [STORED AS file_format] 这一项中可以进行指定;


2.1 文件格式-TextFile


TextFile是Hive中默认的文件格式,存储形式为按行存储。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) Powered by Discuz! X3.4