ToB企服应用市场:ToB评测及商务社交产业平台

标题: hive基础知识分享(三) [打印本页]

作者: 东湖之滨    时间: 2024-11-8 22:07
标题: hive基础知识分享(三)
写在前面

今天继续学习hive部分的知识。
Hive中如何实现行列转换

Hive中的自定义函数分类及实现方法

Hive 中的自定义函数分为三类:UDF (用户自定义函数)UDAF (用户自定义聚合函数)UDTF (用户自定义表天生函数)
UDF

UDTF

案例一:

案例二:

UDAF

Hive操作方式

在 crontab 中,定时策略通过指定一组时间字段来设置任务的执行时间。每个字段代表了一个时间单位,组合起来形成一个定时任务的执行规则。
crontab 的基本格式如下:
  1. * * * * * command_to_execute
  2. - - - - -
  3. | | | | |
  4. | | | | +---- 星期几 (0 - 7) (0 和 7 都代表星期天)
  5. | | | +------ 月份 (1 - 12)
  6. | | +-------- 月中的某一天 (1 - 31)
  7. | +---------- 小时 (0 - 23)
  8. +------------ 分钟 (0 - 59)
复制代码
时间字段含义
特殊字符
详细解释
Hive 建表时留意事项

Hive 优化

1. 处理数据倾斜

数据倾斜原因

数据倾斜的表现

解决方案

2. 建表(分区分桶)

3. SQL 规范

4. 开启相干参数,调整参数

什么是究竟表、维度表?

星型模型与雪花模型的区别?


数据堆栈的分层设计

为什么要设计数据分层?

数据分层有助于数据在流转过程中保持秩序,使数据生命周期清晰、可控。克制层级混乱或复杂依靠结构。
数据分层的好处
分层设计

ODS 层(Operational Data Store 数据运营层)

ODS 层接近数据源,通常不做过多的数据清洗,原始数据直接存入该层。主要用于追溯原始数据题目。
DW 层(Data Warehouse 数据堆栈层)

DW 层是焦点层,数据从 ODS 层抽取后,进行进一步的清洗、聚合,并按主题建立数据模型。DW 层可分为以下几层:
​又称数据集市或宽表。按照业务划分,如流量、订单、用户等,天生字段比较多的宽表,用于提供后续的业务查询,OLAP分析,数据分发等。
​一样平常来讲,该层的数据表会相对比较少,一张表会涵盖比较多的业务内容,由于其字段较多,因此一样平常也会称该层的表为宽表。在实际计算中,如果直接从DWD或者ODS计算出宽表的统计指标,会存在计算量太大并且维度太少的题目,因此一样平常的做法是,在DWM层先计算出多个小的中间表,然后再拼接成一张DWS的宽表。由于宽和窄的界限不易界定,也可以去掉DWM这一层,只留DWS层,将全部的数据在放在DWS亦可。
ADS/APP/DM层(Application Data Store/Application/DataMarket 数据应用层/数据集市)

在这里,主要是提供给数据产品和数据分析使用的数据,一样平常会存放在 ES、PostgreSql、Redis等系统中供线上系统使用,也可能会存在 Hive 或者 Druid 中供数据分析和数据挖掘使用。比如我们常常说的报表数据,一样平常就放在这里。
DIM层(Dimension 维表层)

维表层主要包含两部分数据:

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4