大数据-220 离线数仓 - 数仓基本概念 数仓特征 与数据库举行对比
点一下关注吧!!!非常感谢!!持续更新!!!现在已经更新到了:
[*]Hadoop(已更完)
[*]HDFS(已更完)
[*]MapReduce(已更完)
[*]Hive(已更完)
[*]Flume(已更完)
[*]Sqoop(已更完)
[*]Zookeeper(已更完)
[*]HBase(已更完)
[*]Redis (已更完)
[*]Kafka(已更完)
[*]Spark(已更完)
[*]Flink(已更完)
[*]ClickHouse(已更完)
[*]Kudu(已更完)
[*]Druid(已更完)
[*]Kylin(已更完)
[*]Elasticsearch(已更完)
[*]DataX(已更完)
[*]Tez(已更完)
[*]数据挖掘(已更完)
[*]Prometheus(已更完)
[*]Grafana(已更完)
[*]离线数仓(正在更新…)
章节内容
上节我们完成了如下的内容:
[*]Grafana 简单上手
[*]安装配置 基本介绍
https://i-blog.csdnimg.cn/direct/2c354cf5299e4028870fdc0289c441fa.png
数据堆栈
数仓概念
1988年,为解决全企业集成题目,IBM公司第一次提出了信息堆栈(Information Warehouse)概念。数据堆栈的基本原理、技能架构以及分析体系的主要原因都已确定,数据堆栈初具雏形。
1991年Bill Inmon(比尔 恩门)出版了他的第一本关于数据堆栈的书《Building the Data Warehouse》,标志着数据堆栈概念简直立。书中指出,数据堆栈(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据聚集,用于支持管理决策(Decision-Making Support)。该书还提供了创建数据堆栈的指导意见和基本原则。依附这本书,Bill Inmon被称为数据堆栈之父。
数仓特征
[*]面向主题的
[*]集成的
[*]稳定的
[*]反映历史变化
面向主题
与传统数据库面向应用举行数据组织的特点相应,数据堆栈中的数据是面向主题举行组织的。
什么是主题?
[*]主题是一个抽象的概念,是较高条理上企业信息体系中的数据综合、归类并举行分析利用的抽象
[*]在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象
面向主题的数据组织方式,就是在较高条理上对分析对象的数据的一个完备、一致的描述,能完备、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。所谓较高条理是相对面向应用的数据组织方式而言的,是指按照主题举行数据组织的方式具有更高的数据抽象级别。
例如销售分析就是一个分析领域,那么数据堆栈的分析主题可以是销售分析。
集成的
数据堆栈的数据是从原有的分散的多个数据库、数据文件、用户日志中抽取来的,数据泉源可能既有内部又有外部数据。操作型数据与分析性数据之间的差别很大:
[*]数据堆栈的每一个主题所对应的源数据,在原有的各分散数据库中有重复和不一致的地方,且泉源差别的联机体系的数据与差别的应用逻辑捆绑在于一起
[*]数据堆栈中的数据很难从原有数据库体系直接得到,数据在进入数据堆栈之前,需要经过统一与综合
数据堆栈中的数据是分析服务的,而分析需要多种广泛的差别数据源以便举行比较、鉴别,数据堆栈中的数据会从多个数据源中获取,这些数据源包罗多种类型数据库、文件体系以及Internet网上数据,它们通过数据集成而形成数据堆栈中的数据。
https://i-blog.csdnimg.cn/direct/cd1bbdd496df461c8f1565ae95b70566.png
稳定的
数据堆栈数据反映的是一段相当长的时间历史数据的内容,是差别时点的数据库快照的聚集,以及基于这些快照举行统计、综合和重组的导出数据。
数据稳定主要是针对应用而言,数据堆栈的用户对数据的操作大多是数据查询或比较复杂的挖掘,一旦数据举行数据堆栈后,一样寻常环境下被较长时间保留。数据经过加工和集成进入数据堆栈后极少更新的,通常只需要定期的加载和更新。
反映历史变化
数据堆栈包含各种粒度的历史数据,数据堆栈中的数据可能与某个特定日期、星期、月份、季度或者年份有关。虽然数据堆栈不会修改数据,但并不是说数据堆栈的数据是永远不变的。数据堆栈的数据也需要更新,以适应决策的需要。数据堆栈的数据随时间变化体现在以下的几个方面:
[*]数据堆栈的数据时限一样寻常要远远长于操作型数据的时限
[*]业务体系存储的是当前数据,而数据堆栈中的数据是历史数据
[*]数据堆栈中的数据是按照时间的顺序追加的,都带有时间属性
数仓作用
[*]整合企业业务数据,创建统一的数据中央
[*]产生业务报表,了解企业的经营环境
[*]为企业运营、决策提供数据支持
[*]可以作为各个业务的数据源,形成业务数据互相反馈的良性循环
[*]分析用户举动数据,通过数据挖掘来低落投入本钱,提高投入效果
[*]开发数据产品,直接或间接的为企业红利
对比数据库
数据库与数据堆栈的区别,现实上比的是:OLTP与OLAP的区别。
OLTP(On-Line Transaction Processing 联机事件处理),也成为面向交易的处理体系。主要针对具体业务在数据库体系的一样寻常操作,通常对少数记录举行查询、修改。用户较为关心操作的响应时间、数据的安全性、完备性和并发支持的用户数等题目。传统的数据库体系作为数据管理的主要本领,主要用于操作型处理。
OLAP(On-Line Analytical Processing 联机分析处理),一样寻常针对某些主题的历史数据举行分析,支持管理决策。
数据堆栈的出现,并不是要取代数据库:
[*]数据堆栈主要用于解决企业级的数据分析题目或者管理和决策
[*]数据堆栈为分析数据而计划,数据库是为了捕捉和存储数据而计划
[*]数据堆栈是面向分析,面向主题计划的,即信息是按主题举行组织的,属于分析型。数据库是面向事件计划的,属于操作型。
[*]数据堆栈在计划上故意的数据冗余,提高查询的服从,采用反范式来举行计划,而数据库是尽量避免冗余,一样寻常采用符合范式的方式来计划。
[*]数据堆栈较大,数据堆栈中的数据泉源于多个异构的数据源,而且保留了企业的历史数据,数据存储有期限、单一领域的业务数据
[*]数据库是面向事件的计划,数据堆栈是面向主题计划的
[*]数据库存储有期限的业务数据,数据堆栈是存储企业的历史数据
[*]数据库计划尽量避免冗余,数据堆栈为了速度需要冗余
[*]数据库是为了捕捉数据而计划,数据堆栈是为了分析数据而计划
以银行的业务为例,数据库是事件体系的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来。这里,可以简单的理解为用数据库记账。
数据堆栈是分析体系的数据平台,它从事件体系获取数据,并做汇总、加工,为决策者提供决策的依据。
比如某银行分行一个月发生了多少次交易,该分行当前存款余额是多少,如果存取款多,消费交易多,那么该地区就有须要设立ATM了。
银行的交易量是巨大的,通常以百万乃至千万次来计算。事件体系是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。而分析是事后的,它要提供关注时间段内全部的有效数据。这些数据是海量的,汇总计算起来也要慢一些,但是,只要可以或许提供有效的分析数据就到达目的了。
数据堆栈是数据库已经存在的环境下,为了进一步挖掘数据资源、为了决策需要而产生的,它绝对不是所谓的大型的数据库。
https://i-blog.csdnimg.cn/direct/4e05be6406d84f4dade0c9016ccbd244.png
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]