缠丝猫 发表于 2024-8-18 04:55:06

大数据最全数据仓库面试题整理超具体_数仓面试


[*]数据仓库布局的形貌,包罗数据模式、视图、维、条理布局和导出数据的定义,以及数据集市的位置和内容
[*]业务系统、数据仓库和数据集市的体系布局和模式
[*]由操作情况到数据仓库情况的映射,包罗元数据和他们的内容、数据提取、转换规则和数据刷新规则、权限等。
业务元数据

从业务角度形貌了数据仓库中的数据,他提供了介于使用者和现实系统之间的语义层,使不懂计算机技能的业务职员也能读懂数仓中的数据。


[*]企业概念模型:表示企业数据模型的高层信息。整个企业业务概念和相互关系。以这个企业模型为根本,不懂sql的人也能做到心中有数
[*]多维数据模型。告诉业务分析职员在数据集市中有哪些维、维的种别、数据立方体以及数据集市中的聚合规则。
[*]业务概念模型和物理数据之间的依赖。业务视图和现实数仓的表、字段、维的对应关系也应该在元数据知识库中有所体现。
元数据管理系统?

元数据管理通常容易被忽视,但是元数据管理是不可或缺的。一方面元数据为数据需求方提供了完整的数仓使用文档,资助他们能自主快速的获取数据;另一方面数仓团队可以从一样平常的数据解释中解脱出来,无论是对后期的迭代更新还是维护,都有很大的好处。元数据管理可以让数据仓库的应用和维护更加的高效。
元数据管理功能



[*]数据地图:以拓扑图的情势对数据系统的各类数据实体、数据处置惩罚过程元数据举行分条理的图形化展示,并通过不同条理的图形展现。
[*]元数据分析:血缘分析、影响分析、实体关联分析、实体差异分析、指标一致性分析。
[*]辅助应用优化:结合元数据分析功能,可以对数据系统的应用举行优化。
[*]辅助安全管理:采用合理的安全管理机制来保障系统的数据安全;对数据系统的数据访问和功能使用举行有效监控。
[*]基于元数据的开发管理:通过元数据管理系统规范一样平常开发的工作流程
元数据管理尺度



[*]对于相对简单的情况,按照通用的元数据管理尺度建立一个会合式的元数据知识库
[*]对于比较复杂的情况,分别建立各部分的元数据管理系统,形成分布式元数据知识库,然后通过建立尺度的元数据交换格式,实现元数据的集成管理。
元数据管理系统

自研
apache atlas
印象最深刻的项目是什么?为什么?亮点与优势?

数仓如何确定主题域?

https://www.jianshu.com/p/708f5606dd01
主题

主题是在较高条理上将数据举行综合、归类和分析利用的一个抽象概念,每一个主题根本对应一个宏观的分析领域。在逻辑意义上,它是对企业中某一宏观分析领域所涉及的分析对象。
面向主题的数据构造方式,就是在较高条理上对分析对象数据的一个完整而且一致的形貌,能描画各个分析对象所涉及的企业各项数据,以及数据之间的联系。
主题是根据分析的要求来确定的。
主题域

从数据角度看(聚集论)

主题语通常是联系较为精密的数据主题的聚集。可以根据业务的关注点,将这些数据主题分别到不同的主题域。主题域简直定由终极用户和数仓计划职员共同完成。
从需要建立的数仓主题看(边界论)

主题域是对某个主题举行分析后确定的主题的边界。
数仓建立过程中,需要对主题举行分析,确定主题所涉及到的表、字段、维度等界限。
确定主题内容

数仓主题定义好以后,数仓中的逻辑模型也就根本成形了,需要在主题的逻辑关系中列出属性和系统相干举动。此阶段需要定义好数据仓库的存储布局,向主题模型中添加所需要的信息和能充实代表主题的属性组。
如何控制数据质量?



[*]校验机制,天天举行数据量的比对 select count(*),早发现,早修复
[*]数据内容的比对,抽样比对
[*]复盘、每月做一次全量
如何做数据治理?

https://www.jianshu.com/p/44d7618f32b6
数据治理不仅需要完善的保障机制,还需要理解具体的治理内容,比如数据应该怎么举行规范,元数据该怎么来管理,每个过程需要那些系统或者工具来共同?
数据治理领域包罗但不限于以下内容:数据尺度、元数据、数据模型、数据分布、数据存储、数据交换、数据声明周期管理、数据质量、数据安全以及数据共享服务。
https://img-blog.csdnimg.cn/20200720124712663.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2lmZW5nZ2VnZQ==,size_16,color_FFFFFF,t_70
模型计划的思绪?业务驱动?数据驱动?

构建数据仓库有两种方式:自上而下、自下而上
Bill Inmon推许自上而下的方式,一个企业建立唯一的数据中央,数据是经过整合、清洗、去掉脏数据、尺度的、能够提供同一的视图。要从整个企业的情况入手,建立数据仓库,要做很全面的计划。偏数据驱动
Ralph Kimball推许自下而上的方式,认为数据仓库应该按照现实的应用需求,架子啊需要的数据,不需要的数据不要加载到数据仓库中。这种方式建立周期短,用户能很快看到效果。偏业务驱动
数据质量管理

https://blog.csdn.net/kuangfeng88588/article/details/99085074
数据质量管理是对数据从操持、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的数据质量题目,举行辨认、度量、监控、预警等,通过改善了提高构造的管理水平使数据质量进一步提高。
数据质量管理是一个集方法论、技能、业务和管理为一体的办理方案。放过有效的数据质量控制手段,举行数据的管理和控制,消除数据质量题目,从而提高企业数据变现的本领。
会碰到的数据质量题目:数据真实性、数据准确性、数据一致性、数据完整性、数据唯一性、数据关联性、数据及时性
什么是数据模型?

数据模型就是数据构造和存储的方法,通过抽象的实体以及实体间联系的情势来表达现实世界中事务的相互关系的一种映射,他夸大从业务、数据存取和使用角度合理的存储数据。
为什么需要数据仓库建模?

数仓建模需要按照一定的数据模型,对整个企业的数据举行收罗,整理,提供跨部分、完全一致的报表数据。
符合的数据模型,对于大数据处置惩罚来讲,可以获得得更好的性能、成本、服从和质量。良好的模型可以资助我们快速查询数据,淘汰不必要的数据冗余,提高用户的使用服从。
数据建模举行全方面的业务梳理,改进业务流程,清除信息孤岛,更好的推进数仓系统的建立。
OLAP和OLTP的模型方法的选择?

OLTP系统是操作事物型系统,主要数据操作是随机读写,主要采用满足3NF的实体关系模型存储数据,在事物处置惩罚中办理数据的冗余和一致性题目。
OLAP系统是分析型系统,主要数据操作是批量读写,不需要关注事务处置惩罚的一致性,主要关注数据的整合,以及复杂大数据量的查询和处置惩罚的性能。
3范式?



[*]每个属性值唯一,不具有多义性
[*]每个非主属性必须完全依赖于整个主键,而非主键的一部分
[*]每个非主属性不能依赖于其他关系中的属性
数据仓库建模方法?

有四种模型:ER模型、维度模型、Data Vault模型、Anchor模型。用的较多的是维度模型和ER模型。
ER模型

ER模型用实体关系模型形貌企业业务,在范式理论上满足3NF。数仓中的3NF是站在企业角度面向主题的抽象,而不是针对某个具体业务流程的实体对象关系的抽象。
采用ER模型建立数据仓库模型的出发点是整合数据,将各个系统中的数据按照主题举行相似性整合,并举行一致性处置惩罚。
ER模型特点:



[*]需要全方位了解企业业务数据
[*]实施周期较长
[*]对建模职员要讨教高
维度建模

维度建模按照事实表和维度表来构建数仓。
维度建模从分析决策的需求出发构建模型,为分析需求服务。重点关注用户如何快速的完成数据分析,可以直观的反应业务模型中的业务题目,需要大量的数据预处置惩罚、数据冗余,有较好的大规模复杂查询的响应性能。
事实表

发生在现实世界中的操作性事故,其产生的可度量数值,存储在事实表中。从最细粒度级别来看,事实表的一行对应一个度量事故。事实表表示对分析主题的度量。‘
事实表中包罗了与各个维度表相干联的外键,可与维度表关联。事实表的度量通常是数值类型,且记载数不断增加,表数据量迅速增长。
维度表

维度表示分析数据时所用的情况。
每个维度表都包罗单独的主键列。维度表行的形貌情况应该与事实表行完全对应。维度表通常比较宽,是扁平型的非规范表,包罗大量的低粒度的文本属性。
注意

事实表的计划是以能够精确记载汗青信息为准则
维度表的计划是以能够以符合的角度来聚合主题内容为准则
维度建模的三种模式



[*]星形模型:以事实表为中央,全部的维度直接连接在事实表上。由一个事实表和一组维度表构成。
[*]雪花模型:是对星形模型的扩展。雪花模型的维度表可以拥有更细的维度,比星形更规范一点。维护成本较高,且查询是要关联多层维表,性能较低
[*]星座模型:基于多张事实表,多张事实表共享维度信息
维度建模步骤:



[*]选择业务过程
[*]选择粒度
[*]选定事实表
[*]选择维度
事实表的类型?

事实表有:事务事实表、周期快照事实表、累积快照事实表、非事实事实表
事务事实表

事务事实表记载的是事务层面的事实,保存的是最原子的数据,也称“原子事实表”。事务事实表中的数据在事务事故发生后产生,数据的粒度通常是每个事务记载一条记载。
周期快照事实表

以具有规律性的、可预见的时间间隔来记载事实。它统计的是间隔周期内的度量统计,每个时间段一条记载,是在事务事实表之上建立的聚集表。
累积快照事实表

累积快照表记载的不确定的周期的数据。代表的是完全覆盖一个事务或产品的生命周期的时间跨度,通常具有多个日期字段,用来记载整个生命周期中的关键时间点。
https://img-blog.csdnimg.cn/20200720124744550.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2lmZW5nZ2VnZQ==,size_16,color_FFFFFF,t_70
非事实型事实表

https://www.cnblogs.com/lijun4017/archive/2010/08/05/1792293.html
这个与上面三个有所不同。事实表中通常要保存度量事实和多个维度外键,度量事实是事实表的关键所在。
非事实表中没有这些度量事实,只有多个维度外键。非事实型事实表通常用来跟踪一些事故或说明某些运动的范围。
第一类非事实型事实表是用来跟踪事故的事实表。比方:学生注册事故
第二类非事实型事实表是用来说明某些运动范围的事实表。比方:促销范围事实表
数仓架构为什么要分层?



[*]分层可以清楚数据布局,使用时更好的定位和理解
[*]方便追踪数据的血缘关系
[*]规范数据分层,可以开发一些通用的中间层数据,能够淘汰极大的重复计算
[*]把复杂题目简单化
[*]屏蔽原始数据的异常。不必改一次业务就重新接入数据
数据分层思想?

理论上数据分为:操作数据层、数据仓库层、数据服务层。可根据需要添加新的条理,满足不同的业务需求。
操作数据层ODS

Operate Data Store操作数据存储。数据源中的数据经过ETL后装入ODS层。
ODS层数据的来源一样平常有:业务数据库、日志、抓取等。
数据仓库层DW

根据ODS层中的数据按照主题建立各种数据模型。
DW通常有:DWD、DWB、DWS
DWD: data warehouse detail细节数据层,是业务层和数据仓库的隔离层。
DWB: data warehouse base根本数据层,存储的是客观数据,一样平常用作于中间层。
DWS: data warehouse service服务数据层,整合汇总分析某个主题域的服务数据。一样平常是大宽表。
数据服务层/应用层ADS

该层主要提供数据产品和数据分析使用的数据,一样平常会放在ES、Mysql系统中供线上系统使用
数仓架构进化

经典数仓架构:使用传统工具来建立数仓
离线大数据架构:开始使用大数据工具来更换经典数仓中的传统工具
Lambda架构:在离线大数据架构的根本上,使用流处置惩罚技能直接完成及时性较高的指标计算
Kappa:及时处置惩罚变成了主要的部分,出现了以及时处置惩罚为焦点的kappa架构
离线大数据架构

数据源通过离线的方式导入离线数仓中。卑鄙应用根据业务需求选择获取数据的方式
Lambda架构

在离线数仓的根本上增加了及时计算的链路,并对数据源举行流式改造,及时计算去订阅消息队列,并推送到卑鄙的数据服务中去。
Lambda架构题目:同样的需求需要开发两套一样的代码;资源占用增多
Kappa架构

kappa架构可以认为是lambda架构的简化版,移除了lambda架构中的批处置惩罚部分。
在kappa架构中,需求修改或者汗青数据重新处置惩罚都通过上游重放完成
kappa架构最大的题目是流式重新处置惩罚汗青数据的吞吐本了解低于批处置惩罚,但可以通过增加计算资源来弥补
总结

真实场景中,是lambda架构和kappa架构的混合。大部分及时指标通过kappa架构计算,少量关键指标用lambda架构批量计算
随着数据多样性的发展,数据库这种提前规定schema的模式显得力不从心。这时出现了数据湖技能,把原始数据全部缓存到某个大数据存储上,后续分析时根据需求去解析原始数据。简单来说,数据仓库模式是schema on write,数据湖模式是schema on read
OLAP简介

OLAP(On-line Analytical Processing),联机分析处置惩罚,其主要的功能在于方便大规模数据分析及统计计算,对决策提供参考和支持
特点:数据量大、高速响应、机动交互、多维分析
OLAP分类

存储类型分类

ROLAP(RelationalOLAP)
MOLAP(MultimensionalOLAP)
HOLAP(HybridOLAP)
处置惩罚类型分类



[*]MPP架构
[*]搜索引擎架构
[*]预处置惩罚架构
开源OLAP办理方案

https://blog.csdn.net/weixin_42529806/article/details/97615618


[*]Persto、SparkSQL、Impala等MPP架构和ROLAP的引擎
[*]Druid和Kylin等预处置惩罚架构和MOLAP的引擎
[*]ES这种搜索引擎架构
[*]ClickHouse及IndexR这种列式数据库
OLAP引擎

https://www.cnblogs.com/kaleidoscope/p/10163678.html
Presto

Facebook开发的分布式大数据SQL查询引擎,专门举行快速数据分析
特点



[*]可以将多个数据源的数据举行合并,可以跨越整个构造举行分析
[*]直接从HDFS读取数据,在使用前不需要大量的ETL操作
查询原理


[*]完全基于内存的并行计算
[*]流水线
[*]当地化计算
[*]动态编译执行操持
[*]小心使用内存和数据布局
[*]类BlinkDB的近似查询
[*]GC控制
Druid

Druid是一个用于及时查询和分析的分布式及时处置惩罚系统,主要用于广告分析,互联网广告监控、度量和网络监控
特点


[*]快速的交互式查询——Druid的低延迟数据摄取架构允许事故在它们创建后毫秒内可被查询到。
[*]高可用性——Druid的数据在系统更新时依然可用,规模的扩大和缩小都不会造成数据丢失;
[*]可扩展——Druid已实现天天能够处置惩罚数十亿事故和TB级数据。
[*]为分析而计划——Druid是为OLAP工作流的探索性分析而构建,它支持各种过滤、聚合和查询
应用场景


[*]需要及时查询分析
[*]具有大量数据时,如天天数亿事故的新增、天天数10T数据的增加;
[*]需要一个高可用、高容错、高性能数据库时。
[*]需要交互式聚合和快速探究大量数据时
Kylin

Kylin是提供与Hadoop之上的SQL查询接口及多维分析本领以支持超大规模数据
特点

https://img-blog.csdnimg.cn/img_convert/1b7c8eaac9cde5b142b9088fa66597c1.png
https://img-blog.csdnimg.cn/img_convert/a4cde5b15e260097ba1e101272a5cc42.png
网上学习资料一大堆,但假如学到的知识不成体系,碰到题目时只是浅尝辄止,不再深入研究,那么很难做到真正的技能提升。
需要这份系统化资料的朋友,可以戳这里获取
一个人可以走的很快,但一群人才气走的更远!岂论你是正从事IT行业的老鸟或是对IT行业感爱好的新人,都欢迎参加我们的的圈子(技能交换、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习发展!
应用场景

[*]需要及时查询分析
[*]具有大量数据时,如天天数亿事故的新增、天天数10T数据的增加;
[*]需要一个高可用、高容错、高性能数据库时。
[*]需要交互式聚合和快速探究大量数据时
Kylin

Kylin是提供与Hadoop之上的SQL查询接口及多维分析本领以支持超大规模数据
特点

[外链图片转存中…(img-saYHca5X-1714777532211)]
[外链图片转存中…(img-TnaCMQIH-1714777532211)]
网上学习资料一大堆,但假如学到的知识不成体系,碰到题目时只是浅尝辄止,不再深入研究,那么很难做到真正的技能提升。
需要这份系统化资料的朋友,可以戳这里获取
一个人可以走的很快,但一群人才气走的更远!岂论你是正从事IT行业的老鸟或是对IT行业感爱好的新人,都欢迎参加我们的的圈子(技能交换、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习发展!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 大数据最全数据仓库面试题整理超具体_数仓面试