数据中台、数据平台、数据湖、数据堆栈傻傻分不清楚?带你一文理清 ...

打印 上一主题 下一主题

主题 657|帖子 657|积分 1971

大数据时代,数字化转型海潮下,数据中台、数据堆栈、数据库、大数据平台、数据湖等新老概念满天飞,一个概念还没搞清楚又来一个新概念,数字化转型之路还没开始,在起点就先被各种概念搞昏了头。那么这些在大数据范畴经常能看到或听到的概念,它们详细是什么?相互之间是什么关系?又有什么区别与联系?别急,下面我们将从数据产品的发展历程出发,资助您一文理清数据、大数据、数据库、数据堆栈、数据集市、数据湖、大数据平台、数据中台等概念的定义、应用、区别与联系,这么全面的科普文章,一定要记得收藏哦!
01 一张图了解数据产品发展历程


随着数字经济蓬勃发展,数字化转型步伐不停加快,大数据技术的不停更新与迭代,数据技术加快创新融合应用,在数字化发展的不同阶段,数据管理工具历经了从数据库、数据堆栈、数据集市与数据湖,再到大数据平台与如今的数据中台的发展历程。大数据平台、数据湖、数据堆栈和数据中台都不是某一个数据库大概一种数据库,在每个发展阶段的数据产品并不是后一阶段简朴的代替了前一阶段,也不是说必须要有固定的技术栈和实验路线。正确的讲,它们都有自己的功能、特点地点。


近年来,不停快速迭代的业务模式,急速膨胀的数据量,还有新的大数据、云原生、人工智能等技术发展和数字化转型加快的多重因素驱动下,数据产品实现了从数据库、数据堆栈、数据集市与数据湖,再到大数据平台与如今的数据中台的发展,在发展过程中实现了技术的迭代与互补,让数据产品与业务场景耦合越来越深。
相信大家对各数据产品概念有了一个开端印象,下面就数据、大数据、数据库、数据堆栈、数据集市、数据湖、大数据平台、数据中台等概念详细为大家举行介绍。

02 数据和大数据



什么是数据?
在《数据库体系概论(第5版)》给出的定义是:数据是指对客观事故举行记载并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等举行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。在盘算机科学中,数据是所有能输入盘算机并被盘算机程序处理的符号的介质的总称,是用于输入电子盘算机举行处理,具有一定意义的数字、字母、符号和模拟量等的通称。


什么是大数据?
麦肯锡环球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据聚集,具有海量的数据规模、快速的数据流转、多样的数据类型和代价密度低四大特征。
海量的数据规模(Volume),大数据所收罗、存储和盘算的数据规模都非常大,大数据量通常以TB、PB、乃至EB为单位计量。这些数据来自多个来源,包罗传感器、社交媒体、日志文件等。
快速的数据流转(Velocity),大数据强调数据处理的及时性和时效性,大数据的生成速率非常快,需要及时或近及时地举行处理和分析。例如,金融交易数据、传感器数据等都需要及时响应和处理。
多样的数据类型(Variety),大数据的种类和来源多样化,不仅包罗结构化数据(如表格数据),还包罗非结构化数据(如文本、图像、音频等)。
较低的代价密度(Value),大数据的代价密度相对较低,数据的代价密度和数据的规模呈反相关,数据的规模越大,数据的代价密度越低。

我们再往深处思考一下,为什么需要大数据(大数据技术)?在这个数据爆炸增长的时代,大数据就是在公道时间内到达撷取、管理、处理、并整理成为资助企业经营决策更积极目的的资讯。大数据最大的代价即在于从大量低代价密度数据中挖掘出对分析和猜测等有代价的信息。
03 数据分析与数据挖掘


数据分析可以分为广义的数据分析和狭义的数据分析。广义的数据分析就包罗狭义的数据分析和数据挖掘。我们在工作中经常常说的数据分析指的是狭义的数据分析。


04 什么是数据库?


简朴来说就像冰箱是存放食物的地方一样,数据库是存放数据的地方。数据库是按照数据结构来组织、存储和管理数据的堆栈,是一个长期存储在盘算机内的、有组织的、可共享的、统一管理的大量数据的聚集。一样平常而言,我们所说的数据库指的是数据库管理体系,并不单指一个数据库实例。数据库管理体系一样平常分为“关系型数据库”与“非关系型数据库”。

关系型数据库
已往数据库一共有三种模子,即层次模子,网状模子,关系模子。
(1)起首层次模子的数据结构为树状结构,便是一种上下级的层级关系组织数据的一种方式:

(2)网状模子的数据结构为网状结构,即将每个数据节点与其他很多节点都连接起来:

(3)关系模子的数据结构可以看做是一个二维表格,任何数据都可以通过行号与列号来唯一确定:

相比于层次模子和网状模子,关系模子明白和使用最简朴,终极基于关系型数据库在各行各业应用了起来。常用的关系型数据库有Oracle,MySQL,DB2,Microsoft SQL Sever等。

非关系型数据库
非关系型数据库是以对象为单位的数据结构,非关系型数据库通常指数据以对象的形式存储在数据库中,而对象之间的关系通过每个对象自身的属性来决定。简朴来说非关系型数据库与传统的关系型数据库的区别在于非关系型数据库重要存储没有固定格式的超大规模数据,例如键值对型,文档型,列存储类数据,常见的非关系型数据库有Hbase,Redis,MongoDB,Neo4j等

05 什么是数据堆栈


随着时间的发展,各个业务体系会源源不停的产生数据,一样平常这些数据会存储在数据库中,但是当业务体系运行超过一定时间后,积压的数据会越来越多,这些数据增加了数据库的负载,拖慢了运行速率。积压的数据大部门是调用频率低的冷数据,为了制止冷数据与汗青数据收集影响数据库正常运行,需要定期将冷数据从数据库中转移出来存储到一个专门存放汗青数据的堆栈里面,后续根据需要在这个堆栈举行数据抽取,也就是数据堆栈。
数据堆栈诞生于 1990 年,是一个相对详细的功能概念,见名知意,其实就是存储数据的堆栈,数据堆栈(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映汗青变化的(Time Variant)数据聚集,用于支持管理决策和信息的全局共享。其重要功能是将组织透过资讯体系之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据堆栈理论所特有的资料储存架构,分析出有代价的资讯。
面向主题(Subject Oriented):用户使用数据堆栈举行决策时所关心的重点方面,如:收入、客户、贩卖渠道等;所谓面向主题,是指数据堆栈内的信息是按主题举行组织的,而不是像业务支撑体系那样是按照业务功能举行组织的。
集成(Integrated):数据堆栈中的信息不是从各个业务体系中简朴抽取出来的,而是颠末一系列加工、整理将各种数据源的数据按照统一的标准集成于数据堆栈中,因此数据堆栈中的信息是关于整个企业的一致的全局信息。
相对稳定(Non-Volatile):数据堆栈的数据是一系列的汗青快照,重要为决策者分析提供数据,一样平常仅答应查询,不答应修改删除,数据堆栈的数据仅定期需要由业务数据库转移,加载,刷新。
反映汗青变化(Time Variant):数据堆栈内的信息并不但是反映企业当前的状态,而是记载了从已往某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和猜测。

06 什么是数据集市?


数据集市(Data Mart),也叫数据市场,就是满足特定的部门大概用户的需求,按照多维的方式举行存储,包罗定义维度、需要盘算的指标、维度的层次等,生成面向决策分析需求的数据立方体。以是数据集市的特点在于结构清晰,针对性强且扩展性良好,由于仅仅对某一个范畴建立,容易维护修改。
从范围上来说,数据集市的数据是从数据库,大概是更加专业的数据堆栈中抽取出来的。数据集市分为附属的数据集市与独立的数据集市:
独立型数据集市:数据来自于操作型数据库,是为了满足特殊用户而建立的一种分析型环境。开辟周期一样平常较短,具有机动性,但是因为脱离了数据堆栈,独立建立的数据集市可能会导致信息孤岛的存在,不能以全局的视角去分析数据。
附属型数据集市:数据来自于企业的数据堆栈,如许会导致开辟周期的延伸,但是附属型数据集市在体系结构上比独立型数据集市更稳定,可以进步数据分析的质量,保证数据的一致性。
07 什么是数据湖?




如今许多企业都在构建大概计划构建自己的数据湖,各方对数据湖都有自己的明白与定义。

序号定义出处定义
1
Wikipedia

数据湖是一类存储数据天然/原始格式的体系或存储,通常是对象块大概文件。数据湖通常是企业中全量数据的单一存储。全量数据包罗原始体系所产生的原始数据拷贝以及为了各类任务而产生的转换数据,各类任务包罗报表、可视化、高级分析和呆板学习。数据湖中包罗来自于关系型数据库中的结构化数据(行和列)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如email、文档、PDF等)和二进制数据(如图像、音频、视频)。数据沼泽是一种退化的、缺乏管理的数据湖,数据沼泽对于用户来说要么是不可访问的要么就是无法提供足够的代价。
2 亚马逊AWS

数据湖是一个会合式存储库,答应您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据举行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、及时分析和呆板学习,以指导做出更好的决策。
3 微软

数据湖包罗一切使得开辟者、数据科学家、分析师能更简朴的存储、处理数据的能力,这些能力使得用户可以存储任意规模、任意类型、任意产生速率的数据,而且可以跨平台、跨语言的做所有类型的分析和处理。数据湖在能资助用户加快应用数据的同时,消除了数据收罗和存储的复杂性,同时也能支持批处理、流式盘算、交互式分析等。数据湖能同现有的数据管理和管理的IT投资一起工作,保证数据的一致、可管理和安全。它也能同现有的业务数据库和数据堆栈无缝集成,资助扩显现有的数据应用。


数据湖的特性
关于数据湖的定义其实很多,但是根本上都围绕着以下几个特性展开

序号特性
1 数据湖需要提供足够用的数据存储能力,这个存储保存了一个企业/组织中的所有数据。
2 数据湖可以存储海量的任意类型的数据,包罗结构化、半结构化和非结构化数据。
3 数据湖中的数据是原始数据,是业务数据的完整副本。数据湖中的数据保持了他们在业务体系中原来的样子。
4 数据湖需要具备完满的数据管理能力(完满的元数据),可以管理各类数据相关的要素,包罗数据源、数据格式、连接信息、数据schema、权限管理等。
5 数据湖需要具备多样化的分析能力,包罗但不限于批处理、流式盘算、交互式分析以及呆板学习;同时,还需要提供一定的任务调理和管理能力。
6 数据湖需要具备完满的数据生命周期管理能力。不光需要存储原始数据,还需要能够保存各类分析处理的中间结果,并完整的记载数据的分析处理过程,能资助用户完整详细追溯任意一条数据的产生过程。
7 数据湖需要具备完满的数据获取和数据发布能力。数据湖需要能支撑各种各样的数据源,并能从相关的数据源中获取全量/增量数据;然后规范存储。数据湖能将数据分析处理的结果推送到符合的存储引擎中,满足不同的应用访问需求。
8 对于大数据的支持,包罗超大规模存储以及可扩展的大规模数据处理能力。

08 什么是大数据平台?


大数据平台是一个集数据接入、数据处理、数据存储、查询检索、分析挖掘等、应用接口等功能为一体的平台。最典型的是基于Hadoop生态构建的大数据框架,Hadoop生态的相关产品包罗Spark、Flink、Flume、Kafka、Hive、HBase等等等经典开源产品。国内绝大部门公司的大数据平台都是基于Apache和Cloudera这两个分支Hadoop生态技术的产品举行商业化包装和改进。例如:阿里云EMR、腾讯TBDS、华为FusionInsight、新华三DataEngine、海潮Insight HD、复兴DAP等产品。
大数据平台当然也不范围于某一个大数据框架,可以根据现实业务需求去选择符合的技术组件举行整合,是一个物理存在的平台,为数据堆栈、数据湖、数据中台的构建提供底子支撑。
09 什么是数据中台?


阿里巴巴于2017年云栖大会正式对外提出数据中台概念,数据中台的出现,就是为了弥补数据开辟和应用开辟之间,由于开辟速率不匹配,出现的响应力跟不上的问题。狭义来看,数据中台是一套实现数据资产化和服务复用的工具,是数据收罗交换、共享融合、组织处理、建模分析、管理管理和服务应用于一体的综合性数据能力平台,在大数据生态中处于承上启下的功能,提供面向数据应用支撑的底座能力。广义来看数据中台是一套可持续“让企业的数据用起来”的机制,一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实验方法论支撑构建一套持续不停把数据酿成资产并服务于业务的机制。

序号
定义
定义出处
1
中台就是“企业级能力复用平台”。
《白话中台战略-3:中台的定义》
2
中台通过聚集整个集团的运营数据能力、产品技术能力、来对各前台业务形成强力支撑。
《大型集团性企业的中台战略-阿里的中台战略其实是一个伪命题》
3
中台是一种需求分析的方法论,一套能力接入标准、一套运作机制,会合配置、分布实验的控制台。
《中台如何助力标准化业务?中台关键要快!》
4
“中台”是强调资源整合、能力沉淀的平台体系,为“前台”的业务开展提供底层的技术、数据等资源和能力的支持。
《大中台、小前台》
5
中台是局域前台和背景之间、位于底子架构和各产品线间的业务架构。
《阿里巴巴中台战略思想与架构实践》
6
数据中台是将各个业务板块多年来积聚的数据,按业务特征举行横向关联和统一,按数据用途举行纵向分层,终极沉淀为公共的数据服务能力。
《传统企业数据中台的建立与思考》
7
数据中通的实质还是组件化、模块化,是计划模式与业务端的应用。
袋鼠云《浅析数据中台策略与建立实践》
数据中台逻辑架构


数据中台产业链生态图谱
在大数据技术发展和企业数字化转型加快的双重驱动下,数据中台在多场景快速落地。从厂商类型来看,阿里云、华为云、腾讯云、亚马逊云等平台生态厂商,用友、金蝶、新华三、海潮、明略科技、星环科技等解决方案厂商,网易数帆、数澜科技、云徒科技等独立中台厂商以及滴滴、美团等自研厂商的界限开始模糊,数智服务的生态协同明显。




10 数据产品的区别与联系


数据库与数据堆栈的区别与联系
解释数据库与数据堆栈的区别,这里引入两个名词OLTP(On-Line Transaction Processing,联机事务处理)与OLAP(On-Line Analytical Processing,联机分析处理)。数据库是为了解决OLTP而存在的,而数据堆栈是为了分析数据而存在的。严格来讲数据堆栈不是一门技术,也不是一个产品,数据堆栈涉及数据建模,数据抽取ETL,数据可视化等一系列的流程,是一种数据解决方案,通常需要多种技术举行组合使用。
数据库的数据是数据堆栈的数据源,即将数据库的数据加载至数据堆栈,数据堆栈的本质是OLAP,便是做在线分析处理,这是与数据库的本质区别。对于一个业务体系而言,数据库是必须的,数据堆栈并不是必须的,只有在业务稳定运转的环境下,才会去构建企业级数据堆栈,通过数据分析,数据挖掘来辅助业务决策,实现锦上添花。


数据堆栈与数据集市的区别与联系
数据堆栈和数据集市在规模、数据处理的速率和复杂性、以及数据的范围方面存在明显的差别,数据堆栈是一个大型的、会合的、一体化的数据存储体系,用于存储和处理来自多个源的数据。数据堆栈的目标是支持企业的决策制定和战略实验。而数据集市,则是一个更小型的、针对特定业务部门或主题的数据存储体系。而且,两者的构建和使用方式也有所不同,数据堆栈通常由企业级的技术团队举行构建和维护,数据集市则更多地依赖于特定的业务部门或主题专家。

数据湖与数据堆栈的区别与联系
数据堆栈和数据湖的庞大区别是:数据堆栈中数据在进入堆栈之前需要是事先归类,以便于未来的分析。数据堆栈是高度结构化的架构,数据在转换之前是无法加载到数据堆栈的,用户可以直接得到分析数据。而在数据湖中,数据直接加载到数据湖中,然后根据分析的需要再转换数据,数据湖拥有强大的信息处理能力和处理险些无穷的并发任务或工作的能力。
从产品形态上来说,数据堆栈往往是独立标准化的产品,数据湖更像是一种架构指导,是一套产品组合的解决方案——需要共同一系列的周边工具,来实现业务需要的数据湖。

数据中台与数据堆栈的区别与联系   

数据中台、数据平台、数据堆栈和数据湖的区别与联系
数据中台、数据平台、数据堆栈和数据湖在某个维度上为业务产生代价的形式有不同的侧重,总的来说:
数据中台是企业级的逻辑概念,体现企业数据向业务代价转化的能力,距离业务更近,能够更快速的响应业务和应用开辟需求,从而为业务提供速率更快的服务。

数据平台是在大数据底子上出现的融合了结构化和非结构化数据的数据底子平台,为业务提供服务的方式重要是直接提供数据集。

数据堆栈是一个相对详细的功能概念,是存储和管理一个或多个主题数据的聚集。

数据湖与数据堆栈相比,数据湖缺乏结构性,可存储任何形式(包罗结构化和非结构化)和任何格式(包罗文本、音频、视频和图像)的原始数据,具有更高的敏捷性。

11 总  结


本文对数据、大数据、数据库、数据堆栈、数据集市、数据湖、大数据平台、数据中台等概念的发展历程、定义、应用场景、区别与联系举行详细介绍,资助大家更好的明白和把握大数据范畴相关概念,方便以后的学习与工作。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

南飓风

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表