基础平台建立知识星球APP【聪明方案文库】,下载完备PPT
1、数据集成要进步数据使用服从,冲破数据库之间的物理隔阂,必要先将数据汇聚到数据堆栈中,数据同步分为实时和非实时,接纳的技能也不同。目前先从ODS中同步到hive。数据同步策略的范例包括:全量表、增量表、新增及变化表、拉链表:Ø 全量表:存储完备的数据。Ø 增量表:存储新增加的数据。Ø 新增及变化表:存储新增加的数据和变化的数据。Ø 拉链表:对新增及变化表做定期归并。
2、实体表同步策略
实体表:好比用户,理产业品等,实体表数据量比较小,通常可以做逐日全量,是每天存一份完备数据。即逐日全量。
(1)维度表同步策略
维度表:好比订单状态,审批状态,产物分类,维度表数据量比较小,通常可以做逐日全量,是每天存一份完备数据。即逐日全量。阐明:
针对可能会有变化的状态数据可以存储逐日全量。
没变化的客观天下的维度(好比性别,地域,民族)可以只存一份固定值。
(2)事务型事实表同步策略
事务型事实表:好比,买卖业务流水,操作日志,出库入库记载等。因为数据不会变化,而且数据量巨大,所以每天只同步新增数据即可,所以可以做成逐日增量表,即逐日创建一个分区存储。
(3)周期型事实表同步策略
周期型事实表:好比订单申请等2、数据存储存储的数据包含业务数据和元数据。存储的数据分为四层,每一层接纳的存储方式和数据不同,如下:
ODS层:原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理,目前体系中已经存在。
DWD层:布局和粒度与原始表保持同等,对ODS层数据举行清洗(去除空值,脏数据,超过极限范围的数据),DWD数据接纳hive的方式管理,将从ODS中的数据同步到hive。
DWS层:以DWD为基础,举行轻度汇总,如将用户的基本信息从各个业务体系中归并为一张宽表,此层的数据仍旧存储在hive中。
ADS层:数据应用也即数据应用开发层,通过数据盘算层的盘算后,根据数据范例的不同可以存储到不同的存储器中,如文本型查询的数据可以存储的ES中,对盘算结果的查询可以存储在SqlServer中。
3、元数据管理通过Atlas来管理Hive中的元数据,形成元数据目录,以此设计出元模子,然后将数据堆栈体系之中的元数据按元模子集中汇总并关联到一起,达到企业对数据同一管理与应用的目标。业务元数据相对复杂,来源较广泛且不同一,必要对业务体系举行深入理解,按业务主题举行整理,梳理出业务范围、业务名称 、业务界说、业务描述、业务关系等,并添加到元数据管理体系中,主要作用实现如下:
元数据权限管理:对数据管理必要有权限的管理员管理,是关乎到数据质量的关键。
元数据质量:包含元数据同等性查抄,对异常或者不符合规则的数据告警。
数据血缘分析:数据产生的链路或者路径,比方通过数据 A 数据 B 产生了数据 C,那么 C 的父血缘就是 A 和 B,反之亦然。在大数据套件中描述数据“父子”关系,以思维导图形式展现了数据变化影响和数据生产溯源,清晰描绘表与表之间、使命与使命之间的关系。如图,是红楼梦的数据血缘关系。
1、数据盘算数据盘算由数据管理员来实现,解决的标题根据业务必要对数据融合得出的数据结果。盘算层分为离线盘算和实时盘算。
2、业务流程数据管理人员可以在平台上可视化的对数据处理,先创建数据应用集合以及对应的数据表,然后在可视化界面上编写数据处理脚本,必要提交后台使命管理体系执行,执行完成后根据数据要求存储到不同的数据器中。
3、离线盘算针对数据量大、逻辑复杂的盘算交由后台使命体系,调用Hive盘算。将盘算的结果可以存储到SqlServer或者ES中,根据数据需求场景不同而定。
4、实时查询针对业务频繁查询的场景,并且数据量大的数据盘算完成后可以存储到ES,针对统计分析类同时数据量较大可以使用Presto来查询。
大数据数仓架构体系图
数据堆栈分层体系
目前数梦工场广泛应用于各行业的数仓分层体系有三种 , 如下:
数据堆栈分层体系一
数据堆栈分层模式一架构先容
数据堆栈分层体系二
数据堆栈分层模式二架构先容
数据堆栈分层体系三
数据堆栈分层模式三架构先容
数据堆栈实行流程
数据堆栈实行关键步骤-模式一
数据堆栈实行关键步骤-模式二
数据堆栈实行关键步骤-模式三
数据堆栈产物解决方案
数据服务
数据集成平台
数据治理平台
数据治理平台
数据开发产物
01
以数据安全为焦点的安全立体防御体系解决方案
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |