ToB企服应用市场:ToB评测及商务社交产业平台

标题: 数据堆栈入门(hive篇未完结) [打印本页]

作者: 耶耶耶耶耶    时间: 2024-7-31 16:49
标题: 数据堆栈入门(hive篇未完结)
前言:快秋招了,准备学一点数据堆栈的东西,应聘大数据开辟。看课随记。(这里主要是看一点hive的东西,感觉数仓项目用到最多的就是hive)
一、Hive相关

1.Hive是什么?


总结来说:Hive负担的功能职责就是将用户编写的hql语言转化为napreduce程序,处理位于HDFS上的数据.
    1.1 既然Hive是一个数据堆栈系统,那它具备数仓的本领嘛?

从功能来讲,数据堆栈软件至少要具备两种本领:存储数据和分析数据的额本领.
Hive固然也具备上述两种本领,但不是本身实现,而是借助hadoop:利用hdfs存储,利用mapreduce查询分析数据.
2.Hive的架构,组件有哪些?


3.Hive与数据库

Hive是不是数据库? 不是,Hive是数据堆栈
Hive与数据库的相似之处? Hive的数据模子雷同于RDBMS库表结构,此外还有本身特有的模子.
Hive种的数据可以在粒度级别上分为三类:


4.Hive相关:


      hive数堆栈本质上在hdfs上是一个文件夹                                                                              

        4.1 Table 表:



         4.2 Partitions 分区

Partitions 分区是hive的一种优化本领表.分区是指根据分区列(比方"日期day")的值将表分别为不同分区.如许可以更快的对指定分区数据进行查询.


        4.3 Bucket 分桶

bucket分桶表是hive的一种优化本领表.分桶是指根据表中字段(比方"编号ID")的值,经过hash计算规则将数据文件分别成指定的若干个小文件.
分桶规则:hashfunc(字段)%桶个数,玉树雷同的分到同一个文件.

分桶好处:优化join查询和方便抽样查询.
分桶在HDFS中表现为同一个表目录根据hash散列之后变成多个文件.

5.在Hive中,什么是元数据?

元数据(metadata),是描述数据的数据,主要是描述数据的属性的信息,比如:存储位置,历史数据,资源查找,文件记录等.

 Hive Metadata:


 Hive Metastore:

二、Hive的语法

1.创建表与删除表

1.1、创建表的根本语法

  1. create [external] Table table_name
  2. [(col_name data_type [comment col_comment],..)]
  3. [comment table_comment]
  4. [PARTITIONED BY (col_name data_type [comment col_comment],..)]
  5. [CLUSTERED BY (col_name,col_name,....)]
  6. [STORTED BY (col_name [ASC|DESC],...)] INTO num_buckets BUCKETS]
  7. [ROW FORMAT row_format]
  8. [STORT AS FILE_FORMAT]
  9. [LOCATION hdfs_path]
复制代码

1.2删除表的语法

  1. drop table db_name.table_name
复制代码
2.在Hive中,可以创建的表的类型。


2.1 内部表

  1. create table tb_name
复制代码
未被external修饰的表就是内部表。
内部表的位置由hive.metastore.warehouse.dir参数决定(默认:/user/hive/warehouse.)
删除内部表会直接删除元数据(metastore)及存储数据
2.2 外部表

  1. create external table tb_name ... LOCATION "HDFS_path"
复制代码
外部表被external修饰,其数据可以在任何位置,通过LOCATION关键字指定。
数据存储的不同也代表了这个表在理念上并不是hive在管理,而是可以随意临时链接在外部数据上。
以是在删除外部表,仅仅删除元数据,不删除数据本身。
(注意,表本身和数据是相互独立的,可以先有表,然后把数据移动到表指定的location中,也可以先有数据,然后创建表通过location指向数据。)
2.3 Hive数据加载和导出

        数据的加载:(从其他地方加载到hive,两种方法)

(hive的数据存储在hdfs的路径上,因为hdfs是分布式存储系统,然后在从hdfs上加载到hive内)
  1. LOAD DATA [LOCAL] INPATH "filepath" [OVERWRITE] INTO TABLE tb_name
复制代码
 --->从创建表到将数据load到hive内(指在hive内创建表,然后把其他地方的数据加载到hive中)
  1. # 建表(内部表默认在user/hive/
  2. create table myhive.test_load(
  3. dt string comment "时间",
  4. user_id string comment "用户id",
  5. search_word string comment "搜索关键词",
  6. url string comment "网址" )
  7. row format delimited fields terminated by "\t";
  8. # 数据加载(现在是有表,然后将数据加载到表里边,即hive内,即hdfs的一块区域,但是这个区域是hive)
  9. 1.将linux系统的数据上传。
  10. load data [local] inpath "/home/user/search_log.txt' into table myhive.test_load;
  11. 2.使用hdfs命令先将数据上传到hdfs系统中,再从hdfs系统上传。
  12. hdfs -s -put search_log.txt /tmp  # 将本地路径为search_log.txt的文件上传到hdfs下的tmp上。
  13. (该句在linux上执行)
  14. load data inpath "/tmp/search_log.txt" into table myhive.test_load;
复制代码
注意:将本地的数据上传,本地数据还在,将hdfs的数据上传,hdfs的数据没有了,相当于移动。 

情景:如今hive下边有两张表,一张table1,一张table2,如今table1中有数据,table2是空的,如今要从table1中加载数据到table2中:
语法:
  1. INSERT [OVERWRITE | INTO ] TABLE table_name
  2. [PARTITION (partcol1=val1,partcol2=val2..) [if not exists] ]
  3. select_statement1 FROM from_statement
  4. # 将select查询语句的结果插入到其他表中,被select查询的表可以是内部表也可以是外部表
复制代码
举例:
  1. insert into table2 select * from table1
  2. insert overwrite tabel2 select  * from table1
复制代码
        数据的导出(将hive表中的数据导出到其他恣意目录,比方linux本地的磁盘,大概hdfs,mysql等。)
语法:
  1. # 将数据导出到linux上需要local关键字,将数据导出到hdfs不需要关键字。
  2. insert overwrite [local] directory "path"
  3. select_statement1 from from_statement;
复制代码
举例:
将table1中的数据导出到linux下或hdfs。
  1. # 将查询结果导出到本地,使用默认列分隔符
  2. insert overwrite loacl directory "/home/hadoop/export1"
  3. select * from table1
  4. # 将查询结果导出到本地,使用指定列分隔符
  5. insert overwrite local directory "/home/hadoop/export2"
  6. row format delimited fields terminated by "\t"
  7. select * from table1
  8. # 将查询结果导出到hdfs上。
  9. insert overwrite directory "/tmp/export"
  10. row format delimited fields terminated by "\t"
  11. select * from table1
复制代码
数据的导入导出总结:
1.不管时导入和导出,带local表现从本地导入大概导出到本地,不带表现从hdfs导入,大概导出到hdfs。
2.利用insert会走mapreduce,用时比力长。(但是当文件很大时无所谓,mapreduce和其他的方式速度差不多)
2.4  分区表

2.4.1 分区表的概念

        把大的数据,按照每天大概每小时进行切分,切分成一个个小的文件,分区表就是在表文件夹下,创建子文件夹,把对应数据存放在子文件夹里边,同样,分区之后还可能有分区,那就是再创建文件夹。

        如上图所示,我们知道,hive的内部表实在是hdfs上的一个文件夹,默认路径是“/user/hive/warehouse/database_name.db/table_name ”,那么表的分区是在表的文件夹,又放了子文件夹,来存放数据。即:数据库,表,表分区1,表分区2...表分区N 都是文件夹。在对应的分区文件夹里添加了分区数据。如许做的好处是每个分区是独立的文件夹,那么要对某个时间做处理,只必要对该子文件夹做处理。
2.4.2  创建分区表语法

下边提到的创建分区表的逻辑是先创建表,然后将数据加载到表对应的分区中。
语法
  1. create table tabel_name partition by (分区列 列类型...)
  2. row format delimited fields terminated by '';
复制代码
举例:
  1. # 创建分区表语法
  2. create table score (s_id string,
  3.                     c_id string,
  4.                     s_score int)
  5. partition by (month string)
  6. row format delimited fields terminated by "\t";
  7. # 创建一个表带多个分区,分区的层次是年月日。三者是上下级,不是平级。
  8. create table score (s_id string,
  9.                     c_id string,
  10.                     s_score int)
  11. partition by (year string,
  12.               month string,
  13.               day string)
  14. row format delimited fields terminated by "\t";
  15. # 加载数据到分区表中
  16. load data inpath "/export/server/hivedatas/score.txt"
  17. into table score
  18. partition (month="202006")
  19. # 加载数据到一个表的多个分区中
  20. load data inpath "/export/server/hivedatas/score.txt"
  21. into table score
  22. partition (year="2020",month="06",day="01")
复制代码




分区表注意: 

2.5 分桶表 

2.5.1 分桶表的概念

分桶表和分区表一样,也是通过改变表的存储形式,从而完成对表优化的一种调优方式。
 分桶表和分布表的不同点是,分区是将表拆分到不同的子文件夹中进行存储,分桶是将表拆分到固定数目的不同文件中进行存储。
 注意:分区是文件夹级别,分桶是文件级别。
2.5.2 分桶表的创建

语法:
  1. # 首先开启分桶的自动优化(自动匹配reduce task数量和桶的数量一致)
  2. set hive.enforce.bucketing=true;
  3. # 创建分桶表
  4. create table 表名(列名1 列类型1,列名2 列类型2,..)
  5. clustered by (列名)
  6. into num buckets
  7. row format delimited fields terminated by "\t";
复制代码
2.5.3 分桶表数据的加载

如今已经创建好表了,往分桶表里加载数据,前边已经学了往分区表中加载数据,有两种方法。
但是对于分桶表来说,只可以用insert into/overwrite方法。(该方法必须时从一张表中加载数据到另一张表)
以是往分桶表中添加数据时,先创建一个临时表1,用load data的方法将数据先加载到临时表1中,然后再从临时表1导入到分桶表中。
  1. # 创建普通表
  2. # 该普通表不用分区或分桶,但是列分割符要和分桶表的列分割符一样
  3. create table 临时表名 (c_id string,c_name string,t_id string)
  4. row format delimited fields terminated by "\t";
  5. # 把数据加载到普通表中
  6. load data local
  7. inpath "/export/sever/hivedatas/course.txt"
  8. into table 临时表名
  9. # 构建分桶表
  10. create table table1(c_id string,c_name string,t_id string)
  11. clustered by (c_id)
  12. into 3 buckets
  13. row format delimited fields terminated by "\t";
  14. # 把数据从临时表加载到分桶表
  15. insert overwrite 分桶表  select * from 临时表 cluster by (c_id)
复制代码

因为假如没有分桶,只分区的话,那就是数据放到指定的文件夹,但是有分桶的话,已经指定文件的数目了,有分区:每个分区n个文件,没有分区,统共有n个文件,这种情况下数据必须一分为n,那数据该怎么插入呢?
当把数据分为n份的时候,并不是随机的将数据分成n份,而是基于分桶列的值进行hash取模来决定数据该分到那个文件。load data方式加载数据不会走mapreduce,没有计算,而分桶必要计算,以是不能用load data。

Hash算法是一种加密算法,对于同样的值,加密之后的结果是一样的,比如说字符串"abcde"加密之后是12345,那么对该12345取模(分为几个桶就对谁取模),如许,按照取模的余数来分别数据的文件。
        上边对c_id列进行分桶,那么比如c_id的一个值是“aa",经过hash加密是56,如今要分成3桶,那么取模之后的余数是2,那么他就被分到2的文件夹。以是,同一个值肯定在一个文件。

1.单值过滤:我们知道份几个同,假如想过滤某一个值,就在计算一下他的hash取余,如许一下就可以定位到在那个桶。
2.双表join:可以知道对应的桶里的内容,那么join的时候只必要join该桶就行,可以减少不必要的数据交互。
3.可以基于分桶列,来group by分组:因为雷同的值就在一个桶,以是可以在分桶列上进行分组。
3.修改表操作

  1. # 修改表名字(sql也适用)
  2. alter table table1 rename to table2;
  3. # 修改表的属性(sql不适用)
  4. --首先查看表的属性
  5. desc formatted 表名;
  6. --将表改为外部表
  7. alter table 表名 SET tbpropertites('external'='true')
  8. --修改表的comment,comment是建表时候的注释
  9. alter table 表名 SET tbpropertites('comment'='this is new')
  10. # 添加分区
复制代码


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4