IT评测·应用市场-qidao123.com技术社区

标题: 复习打卡大数据篇——HIVE 01 [打印本页]

作者: 泉缘泉    时间: 2025-1-4 09:26
标题: 复习打卡大数据篇——HIVE 01
目录
1. 数据仓库初识
1.1 数据仓库概念
1.2 数据仓库特点
1.3 OLTP、OLAP区别
1.4 数仓分层架构
2. HIVE初识
2.1 什么是hive?
2.2 hive架构
3. HIVE初体验
3.1 beeline客户端使用



1. 数据仓库初识

1.1 数据仓库概念

数据仓库,Data WareHouse,简称DW。数据仓库是面向分析的集成化数据平台,分析的结果给企业提供决议支持,数据仓库自己不生产数据,其分析的数据来自于企业各种数据源,数据仓库自己也不消费数据,其分析的结果给外部各种数据应用来使用,因此数据仓库不是大型的数据库,只是一个数据分析的平台。
1.2 数据仓库特点

1.3 OLTP、OLAP区别

数据库和数据仓库的区别本质的区别就是OLTP(联机事务处理,Online Transaction Processing)和 OLAP(联机分析处理,Online Analytical Processing)的区别
OLTP(联机事务处理)和OLAP(联机分析处理)是两种不同的数据管理系统,各自服务于不同的业务需求。OLTP主要用于处理一样平常生意业务,如银行业务或电子商务,强调实时数据处理,确保数据同等性,并处理高并发的生意业务请求。它通过规范化数据库减少数据冗余,适用于需要快速响应的操作任务。相比之下,OLAP专注于数据分析和决议支持,处理大量汗青数据,并优化复杂查询和多维分析。OLAP系统通常使用非规范化或多维数据布局,如数据立方体,以提高查询性能和数据聚合能力。
在应用场景方面,OLTP服务于操作人员,处理如订单处理、账户生意业务等实时势务,而OLAP则服务于分析师和管理者,提供深入的数据趋势分析,支持战略决议。OLTP注重事务处理速度和并发能力,OLAP则关注查询响应时间和数据分析能力。在企业环境中,OLTP和OLAP通常相辅相成,OLTP负责一样平常运营,OLAP提供数据分析支持,共同为企业运营和决议提供全面的数据支持。
1.4 数仓分层架构

按照数据流入流出的过程,数据仓库架构可分为三层——源数据(ODS)数据仓库(DW)数据应用(DA)。

分层的好处:清晰数据布局、数据血缘追踪、减少重复开辟、把复杂问题简单化、屏蔽原始数据的非常。
2. HIVE初识

2.1 什么是hive?

Hive是基于Hadoop的一个数据仓库工具,可以将布局化的数据文件映射为一张数据库表,并提供类SQL查询功能。本质是将SQL转换为MapReduce步伐。主要用来做离线数据分析。
2.2 hive架构

hive组件主要包括:客户端用户接口、Hive Driver驱动步伐、metadata、Hadoop。
客户端:就是编写SQL的地方。
Driver:是hive的核心,完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询筹划的生成。生成的查询筹划存储在 HDFS 中,并在随后有 MapReduce 调用实行。
metadatas:元数据存储,对于hive来说,元数据指的是表和文件之间的映射关系。通常是存储在关系数据库如 mysql/derby中。客户端毗连metastore服务,metastore再去毗连MySQL数据库来存取元数据。有了metastore服务,就可以有多个客户端同时毗连,而且这些客户端不需要知道MySQL数据库的用户名和密码,只需要毗连metastore 服务即可。
Hadoop:hive要依靠于Hadoop,Hive使用HDFS存储数据,使用MapReduce查询分析数据。
3. HIVE初体验

3.1 beeline客户端使用

beeline客户端首先要访问Hiveserver2服务,再访问metastore服务。
首先在有hive的机器上先启动metastore服务,再启动hiveserver2服务:


jps看一下历程:

使用beeline客户端访问,beeline在:hive/bin里



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/) Powered by Discuz! X3.4