论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com技术社区
»
论坛
›
物联网
›
物联网
›
复习打卡大数据篇——HIVE 01
复习打卡大数据篇——HIVE 01
泉缘泉
论坛元老
|
2025-1-4 09:26:38
|
显示全部楼层
|
阅读模式
楼主
主题
1732
|
帖子
1732
|
积分
5206
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
目录
1. 数据仓库初识
1.1 数据仓库概念
1.2 数据仓库特点
1.3 OLTP、OLAP区别
1.4 数仓分层架构
2. HIVE初识
2.1 什么是hive?
2.2 hive架构
3. HIVE初体验
3.1 beeline客户端使用
1. 数据仓库初识
1.1 数据仓库概念
数据仓库,Data WareHouse,简称DW。数据仓库是面向分析的集成化数据平台,分析的结果给企业提供决议支持,数据仓库自己不生产数据,其分析的数据来自于企业各种数据源,数据仓库自己也不消费数据,其分析的结果给外部各种数据应用来使用,因此数据仓库不是大型的数据库,只是一个数据分析的平台。
1.2 数据仓库特点
面向主题性 :
一个分析的主题可以对应多个数据源,在数仓中开展分析,首先确定分析的主题,然后基于主题寻找、采集跟主题相干的数据。
集成性 :
数仓数据来自于各个不同的数据源,当我们确定主题之后 就需要把和主题相干的数据从各个数据源集成过来。因为同一个主题的数据大概来自不同的数据源,它们之间会存在着差异。因此在集成的过程中需要进行ETL。
不可更新性
:数据仓库存储了长时间跨度的汗青数据,这些数据是不同时间点数据库快照的集合,同时也包含了基于这些快照进行的统计和重组数据。数据仓库中的数据具有非易失性,即数据一旦进入仓库,通常会长期保留,主要用于查询和分析,很少进行修改和删除操作,仅定期进行数据加载和更新。
时变性
:数据按时间序次追加,带偶然间属性,大概涉及特定日期、星期、月份等时间粒度。尽管数据仓库中的数据不可修改,但为了反映业务变化和保持分析结果的时效性,需要定期更新数据。因此,数据仓库的建立不仅是一个项目,更是一个持续的过程,需要不断优化和调解以适应决议需求。
1.3
OLTP、OLAP区别
数据库和数据仓库的区别本质的区别就是OLTP(联机事务处理,Online Transaction Processing)和 OLAP(联机分析处理,Online Analytical Processing)的区别
OLTP(联机事务处理)和OLAP(联机分析处理)是两种不同的数据管理系统,各自服务于不同的业务需求。OLTP主要用于处理一样平常生意业务,如银行业务或电子商务,强调实时数据处理,确保数据同等性,并处理高并发的生意业务请求。它通过规范化数据库减少数据冗余,适用于需要快速响应的操作任务。相比之下,OLAP专注于数据分析和决议支持,处理大量汗青数据,并优化复杂查询和多维分析。OLAP系统通常使用非规范化或多维数据布局,如数据立方体,以提高查询性能和数据聚合能力。
在应用场景方面,OLTP服务于操作人员,处理如订单处理、账户生意业务等实时势务,而OLAP则服务于分析师和管理者,提供深入的数据趋势分析,支持战略决议。OLTP注重事务处理速度和并发能力,OLAP则关注查询响应时间和数据分析能力。在企业环境中,OLTP和OLAP通常相辅相成,OLTP负责一样平常运营,OLAP提供数据分析支持,共同为企业运营和决议提供全面的数据支持。
1.4 数仓分层架构
按照数据流入流出的过程,数据仓库架构可分为三层——
源数据(ODS)
、
数据仓库(DW)
、
数据应用(DA)。
ODS:
也叫源数据层、临时存储层,其数据来自于各个不同的数据源,此层数据无任何更改,为后一步的数据处理做预备。
DW:
数据仓库层,也称为细节层,DW层的数据应该是同等的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。企业中根据业务复杂度继承在DW中继承划分子层存储大量的中间结果。其数据来自于ODS经过层层ETL得出。
DA:
数据应用层,也可以叫APP层,最终消费DW数据的各种应用。
分层的好处:清晰数据布局、数据血缘追踪、减少重复开辟、把复杂问题简单化、屏蔽原始数据的非常。
2. HIVE初识
2.1 什么是hive?
Hive是基于Hadoop的一个数据仓库工具,可以将布局化的数据文件映射为一张数据库表,并提供类SQL查询功能。本质是将SQL转换为MapReduce步伐。主要用来做离线数据分析。
2.2 hive架构
hive组件主要包括:客户端用户接口、Hive Driver驱动步伐、metadata、Hadoop。
客户端:就是编写SQL的地方。
Driver:是hive的核心,完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询筹划的生成。生成的查询筹划存储在 HDFS 中,并在随后有 MapReduce 调用实行。
metadatas:元数据存储,对于hive来说,元数据指的是表和文件之间的映射关系。通常是存储在关系数据库如 mysql/derby中。客户端毗连metastore服务,metastore再去毗连MySQL数据库来存取元数据。有了metastore服务,就可以有多个客户端同时毗连,而且这些客户端不需要知道MySQL数据库的用户名和密码,只需要毗连metastore 服务即可。
Hadoop:hive要依靠于Hadoop,Hive使用HDFS存储数据,使用MapReduce查询分析数据。
3. HIVE初体验
3.1 beeline客户端使用
beeline客户端首先要访问Hiveserver2服务,再访问metastore服务。
首先在有hive的机器上先启动metastore服务,再启动hiveserver2服务:
jps看一下历程:
使用beeline客户端访问,beeline在:hive/bin里
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
泉缘泉
论坛元老
这个人很懒什么都没写!
楼主热帖
华为一镜到底主题__荣耀30系列安装教程 ...
「Docker入门指北」容器很难理解?带你 ...
日志模块
数据资产为王,如何解析企业数字化转型 ...
信创环境下分布式文件存储MinIO集群部 ...
28基于java的简单酒店数据管理 ...
xss-labs靶场
Vulnhub之M87靶机详细测试过程(不同提 ...
解决NuGet加载或下载资源慢的问题 ...
Java 8 排序的 10 个姿势,太秀了吧! ...
标签云
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
分布式数据库
数据仓库与分析
登录参与点评抽奖加入IT实名职场社区
下次自动登录
忘记密码?点此找回!
登陆
新用户注册
用其它账号登录:
关闭
快速回复
返回顶部
返回列表