hive的存储格式

打印 上一主题 下一主题

主题 759|帖子 759|积分 2277

1) 四种存储格式


hive的存储格式分为两大类:一类纯文本文件,一类是二进制文件存储。
Hive支持的存储数据的格式主要有:TEXTFILE、SEQUENCEFILE、ORC、PARQUET
第一类:纯文本文件存储
textfile: 纯文本文件存储格式,不压缩,也是hive的默认存储格式,磁盘开销大,数据解析开销大
第二类:二进制文件存储
- sequencefile:
会压缩,不能使用load方式加载数据
- parquet:
会压缩,不能使用load方式加载数据
- rcfile:
会压缩,不能load。查询性能高,写操纵慢,所需内存大,计算量大。此格式为行列混合存储,hive在该格式下,会尽量将附近的行和列的块存储到一起。
- orcfile:rcfile的升级版。
2)列式存储和行式存储


TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的;
ORC和PARQUET是基于列式存储的。
行式存储:查找某一条整行数据比较快
列式存储:查找某个字段比较快 select name from user;
 修改hive的默认存储格式:
  1. <property>
  2.   <name>hive.default.fileformat</name>
  3.   <value>TextFile</value>
  4.   <description>
  5.     Expects one of [textfile, sequencefile, rcfile, orc].
  6.     Default file format for CREATE TABLE statement. Users can explicitly override it by CREATE TABLE ... STORED AS [FORMAT]
  7.   </description>
  8. </property>
  9. 也可以使用set方式修改:
  10. set hive.default.fileformat=TextFile
复制代码
3)实操一下:

首先将一个18.1M的数据上传至 /home/hivedata/,这个文件叫做stocks.log
textfile范例演示:

  1. create table stocks_1 (
  2.   track_time string,
  3.   url string,
  4.   session_id string,
  5.   referer string,
  6.   ip string,
  7.   end_user_id string,
  8.   city_id string
  9. )
  10. row format delimited fields terminated by '\t'
  11. stored as textfile;
  12. load data local inpath '/home/hivedata/stocks.log' into table stocks_1;
  13. 在linux的命令行上使用hdfs dfs -put方法去上传到指定目录下。
复制代码
sequencefile 的使用

  1. create external table if not exists stocks_seq_1 (
  2.   track_time string,
  3.   url string,
  4.   session_id string,
  5.   referer string,
  6.   ip string,
  7.   end_user_id string,
  8.   city_id string
  9. )
  10. row format delimited fields terminated by '\t'
  11. stored as sequencefile;
  12. 由于不能load数据,从普通表中查询出来插入进入。
  13. 使用insert into的方式加载数据
  14. insert into stocks_seq_1 select * from stocks_1 ;
  15. 或者使用克隆的方式:
  16. create table stocks_seq_2 stored as sequencefile as select * from stocks_1;
复制代码
检察数据,是乱码,说明是二进制文件

parquetfile 范例 

  1. create external table if not exists stocks_parquet (
  2. track_time string,
  3. url string,
  4. session_id string,
  5. referer string,
  6. ip string,
  7. end_user_id string,
  8. city_id string
  9. )
  10. row format delimited
  11. fields terminated by '\t'
  12. stored as parquet;
  13. 使用insert into的方式加载数据
  14. insert into stocks_parquet select * from stocks_1 ;
  15. 或者使用克隆的方式:
  16. create table stocks_parquet_1 stored as parquet as select * from stocks_1;
复制代码
 
 
rcfile范例:

  1. create external table if not exists stocks_rcfile (
  2. track_time string,
  3. url string,
  4. session_id string,
  5. referer string,
  6. ip string,
  7. end_user_id string,
  8. city_id string
  9. )
  10. row format delimited
  11. fields terminated by '\t'
  12. stored as rcfile;
  13. 使用insert into的方式加载数据
  14. insert into stocks_rcfile select * from stocks_1;
  15. 或者使用克隆的方式:
  16. create table stocks_rcfile_2 stored as rcfile as select * from stocks_1;
复制代码

 
 orcfile范例:rcfile的升级版

  1. create external table if not exists stocks_orcfile (
  2. track_time string,
  3. url string,
  4. session_id string,
  5. referer string,
  6. ip string,
  7. end_user_id string,
  8. city_id string
  9. )
  10. row format delimited
  11. fields terminated by ','
  12. stored as orcfile;
  13. 使用insert into的方式加载数据
  14. insert into stocks_orcfile select * from stocks_1;
  15. 或者使用克隆的方式:
  16. create table stocks_orcfile_2 stored as orcfile as select * from stocks_1;
复制代码



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

梦见你的名字

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表