Hive操作数据库,表等操作

打印 上一主题 下一主题

主题 933|帖子 933|积分 2801




1、启动

上一篇文章报告了hive的摆设和搭建,那么这一篇文章给大家讲讲,hive的一些简单的使用方法。
起首我们按步骤启动hive。
起首切换到自己hadoop的sbin目录,以启动集群。
  1. cd /export/servers/hadoop/sbin
复制代码
然后使用一键启动命令,在三台虚拟机上开始搭建集群。
  1. start-all.sh
复制代码
启动完成之后,使用jps,看一下自己的进程们显示的全面不全面。
发现叫全面之后,我们切换到hadoop03的虚拟机,输入下面的命令启动hadoop03上面,启动一下我们配置的MetaStore服务。
  1. hive --service metastore
复制代码
启动完MetaStore服务知乎,我们再双击一下hadoop03,开启下一个窗口。
启动HiveServers2
  1. hive --servece hiveserver2
复制代码
开启之后,HiveServer2重要用来记载一些hadoop02操作的日志,举行一些活动的记载。大家可以在这里看到hadoop02链接服务的重要日志内容。
接下来,我们再切换到hadoop02,输入下面的命令,举行连接HadoopServer2的服务。
  1. beeline -u jdbc:hive2://hadoop03:10000 -n root
复制代码
然后,我们就水灵灵的启动成功了。
2、操作

当我们电脑上出现下面的输出的时候,我们这次链接就成功了。

哦豁,接下来我们就可以开始举行数据库的一些操作了。
创建数据库
起首创建一个数据库,
  1. CREATE DATABASE IF NOT EXISTS hive_db  
  2. COMMENT 'This is my hive_db'  
  3. LOCATION '/hive/hive_db'  
  4. WITH DBPROPERTIES ('author'='zhangsan', 'date'='2024-11-2');
复制代码
首句判断,如果数据库不存在,那么就创建一个数据库,
第二行是为数据库做了一个注释,说明一下这个数据库是做什么的,
第三行是指定了一下数据库在hdfs上储存的位置,可选,可以自己指定一个位置举行储存。
第四举动数据库添加了作者,还有日期两个属性。

创建完数据库之后,我们可以检察一下数据库的属性信息。
检察数据库的储存信息
  1. describe database extended hive_db;
复制代码
修改数据库信息
  1. alter database hive_db set dbproperties ('author'='lisi','date'='2022-07-02');
复制代码
删除数据库
  1. drop database hive_db;
复制代码
小小小提示,这句删除hive_db数据库内里所有的表和数据,如果数据库不为空,你没有删除成功的话,可以加上CASCADE关键字来举行一个强制的删除。
  1. drop database hive_db CASCADE;
复制代码
接下来我们创建一个itcast的数据库,
  1. CREATE DATABASE IF NOT EXISTS itcast
复制代码
内部表
之后,我们可以创建一个内部表,
内部表是hive默认创建表的范例,Hive会完全控制和管理内部表的数据和元数据。
Hive负责管理表的元数据,包括表布局、列范例、分区信息等。
内部表适用于数据完全由Hive管理,数据生命周期短,不须要与其他系统共享数据的场景。
  1. create table if not exists
  2. itcast.managed_table(
  3. dept_id INT comment "This is deptid",
  4. staff_id INT comment "This is staffid",
  5. staff_name STRING comment "This is staffname",
  6. staff_age INT comment "This is staffage",
  7. salary FLOAT comment "This is staff salary",
  8. hobby ARRAY<STRING> comment "This is staff hobby",
  9. base_info MAP<STRING, INT> comment "Record height and weight",
  10. person_info STRUCT<marry:STRING,children:STRING>
  11. )
  12. row format delimited
  13. fields terminated by ','
  14. collection items terminated by '_'
  15. map keys terminated by ':'
  16. lines terminated by '\n'
  17. tblproperties("comment"="This is a managed table");
复制代码
创建完成之后,我们就可以开始创建下一个表。
外部表的创建
外部表是指表的数据实际存储在Hive Metastore之外的位置(如HDFS、HBase、Amazon S3等),Hive仅维护表的元数据(如表布局、分区信息等),而不管理数据本身。
外部表在元数据管理方面,Hive维护表的元数据,但不涉及数据的实际存储和管理。
  1. create external table if not exists
  2. itcast.external_table(
  3. staff_id INT comment "This is staffid",
  4. staff_name STRING comment "This is staffname",
  5. salary FLOAT comment "This is staff salary"
  6. )
  7. row format delimited
  8. fields terminated by ','
  9. lines terminated by '\n'
  10. location '/hive/external_table/';
复制代码
桶表的创建
桶表是一种特别的表格存储方式,它将数据分成若干个桶,每个桶中存放一部门数据。通过对数据举行桶分组,可以提高查询的性能,镌汰数据的扫描和处理时间。
桶表适用于须要对数据举行高效查询和处理的场景,特别是当数据会被经常用来做连接查询时。
并且,桶表可以提高查询效率,优化数据分组,镌汰数据的扫描和处理时间。通过数据预分组,可以加速JOIN操作和抽样的速度。
  1. create external table if not exists
  2. itcast.clustered_table(
  3. id STRING,
  4. name STRING,
  5. gender STRING,
  6. age INT,
  7. dept STRING
  8. )
  9. clustered by (dept) sorted by (age desc) into 3 buckets
  10. row format delimited
  11. fields terminated by ','
  12. lines terminated by '\n'
  13. location '/hive/clustered_table/';
复制代码
先容完并且成功创建了上面的三种表,接下来我们检察表managed_table的详细布局信息
  1. desc formatted itcast.managed_table;
复制代码
对表重命名
表external_table重命名为external_table_new
  1. alter table itcast.external_table rename to external_table_new;
复制代码
修改表中的字段
表external_table_new的字段staff_name修改为staff_username,并且将该字段的数据范例修改为varchar(30)
  1. alter table itcast.external_table_new
  2. change staff_name staff_username varchar(30);
复制代码
在表中添加字段
  1. alter table itcast.external_table_new add columns (staff_gender STRING);
复制代码
复制代码
删除表
#删除数据库itcast中的表external_table_new
  1. drop table itcast.external_table_new;
复制代码
在分区表中添加分区
#分区表partitioned_table添加分区city=Nanjing
  1. alter table itcast.partitioned_table add partition(city="Nanjing");
复制代码
重命名分区
分区表partitioned_table的分区city=Nanjing重命名为city=Chongqing
  1. alter table itcast.partitioned_table partition(city="Nanjing")
  2. rename to partition(city="Chongqing");
复制代码
删除分区
删除分区表partitioned_table的分区city=Chongqing
  1. alter table itcast.partitioned_table drop
  2. if exists partition(city="Chongqing");
复制代码
复制代码
导入数据
数据文件staff_data导入表managed_table
  1. load data local inpath '/export/data/staff_data' into table itcast.managed_table;
复制代码
向表clustered_table导入数据
  1. INSERT INTO TABLE itcast.clustered_table
  2. VALUES(1,'user01','man',20,'Personnel'),
  3. (2,'user02','woman',23,'R&D Department'),
  4. (3,'user03','man',36,'Marketing Department'),
  5. (4,'user04','man',32,'Personnel'),
  6. (5,'user05','woman',22,'R&D Department'),
  7. (6,'user06','man',21,'Marketing Department'),
  8. (7,'user07','woman',28,'Finance Department'),
  9. (8,'user08','woman',23,'R&D Department'),
  10. (9,'user09','man',26,'Finance Department'),
  11. (10,'user10','man',25,'R&D Department');
复制代码
#向分区表partitioned_table的分区city=Beijing导入数据
  1. load data inpath '/hive/data/staff_data2'
  2. into table itcast.partitioned_table
  3. partition (city='Beijing');
复制代码
#向分区表partitioned_table的分区city=Tianjin导入数据
  1. INSERT INTO TABLE itcast.partitioned_table
  2. PARTITION (city='Tianjin')
  3. VALUES(6,'staff6','man')
  4. ,(7,'staff7','man')
  5. ,(8,'staff8','woman')
  6. ,(9,'staff9','man')
  7. ,(10,'staff10','woman');
复制代码
#开启动态分区
  1. set hive.exec.dynamic.partition=true;
  2. set hive.exec.dynamic.partition.mode=nostrict;
复制代码
#动态分区向分区表partitioned_table导入数据
  1. INSERT INTO TABLE itcast.partitioned_table
  2. PARTITION (city)
  3. VALUES(11,'staff11','man','Guangdong')
  4. ,(12,'staff12','man','Guangdong')
  5. ,(13,'staff13','woman','Shanghai')
  6. ,(14,'staff14','man','Guangdong')
  7. ,(15,'staff15','woman','Shanghai');
复制代码
查询
  1. select staff_name,base_info from itcast.managed_table;
复制代码
#查询1-1
  1. select staff_name,base_info from itcast.managed_table;
复制代码
#查询1-2
  1. select count(staff_id) from itcast.managed_table;
复制代码
#查询1-3
  1. select sum(salary) from itcast.managed_table;
复制代码
#查询1-4
  1. select distinct dept_id from itcast.managed_table;
复制代码
#查询2-1
  1. select dept_id,staff_name from itcast.managed_table where dept_id=1001
复制代码
;
#查询2-2
  1. select staff_name,base_info["height"] from itcast.managed_table where base_info["height"]>190;
复制代码
#查询2-3
  1. select staff_name,hobby[0] from itcast.managed_table where hobby[0] like "playing%";
复制代码
#查询2-4
  1. select staff_name,person_info from itcast.managed_table where person_info.marry="Y" and person_info.children="Y";
复制代码
#查询2-5
  1. select staff_name,salary from itcast.managed_table where salary>=7000 and salary <= 9000;
复制代码
#查询3-1
  1. select dept_id,avg(salary) from itcast.managed_table group by dept_id;
复制代码
#查询3-2
  1. select dept_id,count(staff_id) from itcast.managed_table where person_info.marry="Y" group by dept_id;
复制代码
#查询3-3
  1. select dept_id from itcast.managed_table group by dept_id having avg(salary) < 6000;
复制代码
#查询4-1
  1. select staff_name,salary from itcast.managed_table order by salary desc limit 5;
复制代码
#查询4-2
  1. select dept_id,staff_name,staff_age from itcast.managed_table distribute by dept_id sort by staff_age asc;
复制代码


创建表staff table
  1. create table if not exists
  2. itcast.staff_table(
  3. staff_id INT,
  4. staff_name STRING,
  5. staff_gender string,
  6. city string
  7. )
  8. row format delimited
  9. fields terminated by ','
  10. lines terminated by '\n';
复制代码
  1. <strong>向表中插入数据</strong>
复制代码
  1. INSERT INTO TABLE itcast.staff_table
  2. VALUES(16,'staff16','man','Changsha'),
  3. (17,'staff17','man','Changsha'),
  4. (18,'staff18','woman','Changsha'),
  5. (19,'staff19','man','Beijing'),
  6. (20,'staff20','woman','Nanjing');
复制代码
查询插入
  1. insert into table itcast.partitioned_table partition (city)
  2. select staff_id,staff_name,staff_gender,city from itcast.staff_table;
复制代码
#创建表students_table
  1. create table if not exists
  2. itcast.students_table(
  3. class string,
  4. student_name string
  5. )
  6. row format delimited
  7. fields terminated by ','
  8. lines terminated by '\n';
复制代码
#向表students_table插入数据
  1. INSERT INTO TABLE itcast.students_table
  2. VALUES('301','student1'),
  3. ('302','student2'),
  4. ('305','student3'),
  5. ('303','student4'),
  6. ('302','student5'),
  7. ('303','student6'),
  8. ('301','student7'),
  9. ('303','student8'),
  10. ('302','student9'),
  11. ('301','student10');
复制代码
#创建表teacher_table
  1. create table if not exists
  2. itcast.teacher_table(
  3. class string,
  4. teacher_name string
  5. )
  6. row format delimited
  7. fields terminated by ','
  8. lines terminated by '\n';
复制代码
#向表teacher_table插入数据
  1. INSERT INTO TABLE itcast.teacher_table
  2. VALUES('301','teacher01'),
  3. ('302','teacher02'),
  4. ('303','teacher03'),
  5. ('304','teacher04');
复制代码
#关联查询
#内连接
  1. SELECT t1.class,t2.class,t1.student_name,t2.teacher_name
  2. FROM itcast.students_table t1
  3. INNER JOIN
  4. itcast.teacher_table t2
  5. ON t1.class = t2.class;
复制代码
#左外连接
  1. SELECT t1.class,t2.class,t1.student_name,t2.teacher_name
  2. FROM itcast.students_table t1
  3. LEFT JOIN
  4. itcast.teacher_table t2
  5. ON t1.class = t2.class;
复制代码
#右外连接
  1. SELECT t1.class,t2.class,t1.student_name,t2.teacher_name
  2. FROM itcast.students_table t1
  3. RIGHT JOIN
  4. itcast.teacher_table t2
  5. ON t1.class = t2.class;
复制代码
#全外连接‘
  1. SELECT t1.class,t2.class,t1.student_name,t2.teacher_name
  2. FROM itcast.students_table t1
  3. FULL JOIN
  4. itcast.teacher_table t2
  5. ON t1.class = t2.class;
复制代码


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

祗疼妳一个

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表