【大数据】什么是数据架构?

打印 上一主题 下一主题

主题 903|帖子 903|积分 2713

目录
  一、什么是数据架构?
  二、数据架构的发展历程
  1. 早期阶段(1960年代-1970年代)
  2. 关系数据库的兴起(1970年代-1980年代)
  3. 数据仓库和数据发掘(1980年代-1990年代)
  4. 大数据和NoSQL(2000年代)
  5. 数据湖和云计算(2010年代至今)
  三、流行数据架构框架
  The Open Group Architecture Framework (TOGAF)
  DAMA-DMBOK 2
  Zachman 企业架构框架
  四、数据管理系统的范例
  五、数据架构的范例
  六、数据架构的优势
  
  数据架构是指构造和管理数据的方式,包罗数据的存储、处理、流动和使用方式。它涉及到怎样计划和构建数据模子、数据库系统、数据互换机制等,以确保数据的有效性、安全性和可用性。数据架构的目标是支持业务需求、进步数据的质量和同等性,并促进数据的共享和集成。
      

   什么是数据架构?

   
数据架构描述怎样管理从收集到转换、分发和使用的数据。 它为数据及其在数据存储系统中流动的方式设定了蓝图。 它是数据处理操作和人工智能 (AI) 应用步伐的基础。

   
数据架构的计划应该由业务需求驱动,数据架构师和数据工程师使用这些需求来定义相应的数据模子以及支持它的底层数据结构。 这些计划通常有助于满足业务需求,例如陈诉或数据科学计划

   
随着物联网 (IoT) 等新兴技术的出现,新的数据源不停涌现,良好的数据架构可以确保数据易于管理且具有使用价值,从而支持数据生命周期管理。 更具体地说,它可以避免冗余数据存储,通过整理和重复数据删除来进步数据质量,并支持新的应用步伐。 现代数据架构还提供了跨域(例如部分或地理地区之间)集成数据的机制,打破了数据孤岛,因而消除了将所有数据存储在同一地方所带来的巨大复杂性。

   
现代数据架构常常使用云平台来管理和处理数据。 固然它的本钱更高,但它的计算可扩展性使重要数据处理任务可以或许快速完成。 存储可扩展性还有助于应对不停增长的数据量,并确保所有相关数据都可用,以进步训练 AI 应用步伐的质量。

   

   

   二、数据架构的发展历程

   1. 早期阶段(1960年代-1970年代)

   
文件系统期间:早期的数据存储主要依靠于文件系统,数据存储在平面文件中。数据管理和处理通常是应用步伐内部的一部分,这种方式很难实现数据共享和整合。

   
层次模子和网状模子:1960年代末和1970年代初,出现了层次数据模子(如IBM的Information Management System)和网状数据模子(如CODASYL DBTG模子)。这些模子允许更复杂的数据关系,但仍然较为复杂且不敷灵活。

   

   2. 关系数据库的兴起(1970年代-1980年代)

   
关系模子:1970年,Edgar Codd提出了关系模子,它用数学理论来描述数据结构和操作方法。关系模子使得数据构造更加灵活,并支持使用结构化查询语言(SQL)来进行数据操作。

   
数据库管理系统(DBMS):随着关系模子的遍及,关系数据库管理系统(如IBM的DB2、Oracle、MySQL)迅速发展,成为企业数据管理的主要工具。

   

   3. 数据仓库和数据发掘(1980年代-1990年代)

   
数据仓库:数据仓库概念由Bill Inmon和Ralph Kimball在1990年代提出,它涉及将来自不同数据源的数据整合到一个中央仓库中,以支持决策分析。数据仓库计划夸大数据整合、汗青数据的保存以及查询和陈诉的高效性。

   
数据发掘:数据发掘技术开始得到关注,用于从大量数据中提取有价值的信息和模式。

   

   4. 大数据和NoSQL(2000年代)

   
大数据:随着互联网和交际媒体的兴起,数据的规模和多样性大幅增长,传统的关系数据库面临挑战。大数据技术(如Hadoop、Spark)应运而生,用于处理和分析海量数据。

   
NoSQL数据库:为了处理非结构化数据和高并发哀求,NoSQL数据库(如MongoDB、Cassandra)得到了广泛应用。NoSQL数据库不依靠于传统的关系模子,支持更灵活的数据存储和访问模式。

   

   5. 数据湖和云计算(2010年代至今)

   
数据湖:数据湖的概念夸上将各种范例的数据(结构化、半结构化、非结构化)以原始格式存储在一个会合式存储系统中。数据湖支持灵活的数据访问和分析,常与大数据技术联合使用。

   
云数据架构:云计算的遍及使得数据存储和处理的模式发生了厘革。云数据库(如Amazon RDS、Google BigQuery)和数据仓库服务(如Snowflake)提供了弹性、可扩展的解决方案,使得企业可以或许以更低的本钱管理和分析数据。

   

   
数据架构的发展反映了技术的进步和业务需求的厘革。从最初的简朴文件存储,到复杂的关系模子、数据仓库、大数据技术,再到现代的云计算和数据湖架构,数据架构不停演变,以应对不停增长的数据量和复杂的数据处理需求。

   

   流行数据架构框架

   
数据架构可以借鉴流行的企业架构框架,包罗 TOGAF、DAMA-DMBOK 2 和 Zachman 企业架构框架。

   

   The Open Group Architecture Framework (TOGAF)

   
这个企业架构方法由 The Open Group 于 1995 年开发,IBM 是该构造的白金会员。

   

   
该架构有四大支柱:

   
业务架构,它定义企业的构造结构、业务战略和流程。

   
数据架构,它描述概念、逻辑和物理数据资产,以及这些资产在整个生命周期中的存储和管理方式。

   
应用步伐架构,它代表应用步伐系统,以及这些系统与关键业务流程以及相互之间的关系。

   
技术架构,它描述支持任务关键型应用步伐所需的技术基础架构(硬件、软件和网络)。

   
因此,TOGAF 为计划和实现企业的 IT 架构(包罗其数据架构)提供了一个完备的框架。

   

   

   DAMA-DMBOK 2

   
DAMA International 最初成立时的名称是 Data Management Association International,是一个致力于推进数据和信息管理的非营利构造。 其数据管理知识体系 DAMA-DMBOK 2 涵盖数据架构以及管理和道德、数据建模和计划、存储、安全和集成。

   

   

   Zachman 企业架构框架

   
该框架最初由 IBM 的 John Zachman 于 1987 年开发,使用一个从上下文到具体信息的六层矩阵,映射了诸如为什么、怎么做和是什么等六个问题。 它提供了一种正式的数据构造和分析方式,但不包罗具体方法。

   

   

   

   

   数据管理系统的范例

   

   
1.数据仓库

   
数据仓库将来自企业内不同关系数据源的数据聚合到单个会合的同一存储库中。 提取后,数据流经 ETL 数据管道,经过各种数据转换,才能满足预定义数据模子的需求。 一旦加载到数据仓库中,数据就可以支持不同的商业智能 (BI) 和数据科学应用步伐。

   
2.数据集市

   
数据集市是一个有针对性的数据仓库版本,它包罗一个较小的数据子集,这些数据对构造内的单个团队或选定用户组很重要且是必需的。 由于数据集市包罗较小的数据子集,因此在使用更广泛的数据仓库数据集时,数据集市使部分或业务线可以或许更快地发现更有针对性的洞察。 最初创建数据集市的目标是应对构造在 20 世纪 90 年代建立数据仓库的困难。 其时集成来自整个构造的数据须要进行大量手动编码,而且非常耗时。 与会合式数据仓库相比,数据集市的范围更有限,使其实现起来更容易且更快速。

   
3.数据湖

   
数据仓库存储已处理的数据,而数据湖存储原始数据,通常为 PB 级别。 数据湖可以存储结构化和非结构化数据,这使其与其他数据存储库不同。 这种灵活的存储需求对于数据科学家、数据工程师和开发人员尤其有用,让他们可以或许访问数据进行数据发现训练和呆板学习项目。 最初创建数据湖的目标是应对数据仓库无法处理数量、速度和种类不停增长的大数据的情况。 固然数据湖比数据仓库慢,但它们的代价也更低廉,因为在收罗之前险些不须要数据预备。 如今,它们作为云数据迁徙工作的一部分持续演变。 数据湖支持广泛的用例,因为在收集数据时不须要定义数据的业务目标。 不外,两个主要用例包罗数据科学探索以及数据备份和规复工作。 数据科学家可以使用数据湖进行概念验证。 呆板学习应用步伐可以从可以或许在同一个地方存储结构化和非结构化数据中受益,这是使用关系数据库系统无法实现的。 数据湖也可以用于测试和开发大数据分析项目。 当应用步伐开发完成并识别出有用数据后,可以将数据导出到数据仓库以供操作使用,并且可以使用自动化来实现应用步伐扩展。 数据湖还可以用于数据备份和规复,因为它们可以或许以低本钱进行扩展。 出于同样的原因,数据湖非常适合存储尚未定义业务需求的“以备不时之需”数据。 现在存储这些数据意味着可以在以后出现新计划时使用。

   

   数据架构的范例

   
1.数据结构

   
数据结构是一种架构,它侧重于数据提供者和数据使用者之间的数据价值链中的数据集成、数据工程和管理的自动化 数据结构基于“活动元数据”的概念,使用知识图、语义、数据发掘和呆板学习 (AI) 技术来发现各种范例元数据(例如系统日志、交际等)中的模式。 然后,将这种洞察应用于自动化并编排数据价值链。 例如,它可以使数据使用者可以或许找到数据产品,然后自动向他们提供该数据产品。 数据产品和数据使用者之间数据访问的增长减少了数据孤岛,并提供了更完备的构造数据视图。 数据结构是一种具有巨大潜力的新兴技术,可用于增强客户概要分析、欺诈检测和防备性维护。 根据 Gartner 的数据,数据结构使集成计划时间减少 30%,部署时间减少 30%,维护时间减少 70%。

   
2.数据网格

   
数据网格是一种去中央化的数据架构,按业务范畴来构造数据。 使用数据网格时,构造须要不再将数据视为流程的副产品,而是开始将其视为产品本身。 数据生产者充当数据产品所有者。 作为主题专家,数据生产者可以使用他们对数据主要使用者的理解为他们计划 API。 这些 API 也可以从构造的其他部分访问,提供了更广泛的受管数据访问渠道。

   

   
数据湖、数据仓库等相对传统的存储系统可以作为多个去中央化的数据存储库来实现数据网格。 数据网格还可以与数据结构一起使用,借助数据结构的自动化,可以更快地创建新的数据产品或执行全球管理。

   

   数据架构的优势

   
结构完善的数据架构可以为企业提供许多关键优势,此中包罗:

   

   
1.减少冗余:不同泉源中大概存在重叠的数据字段,从而会导致不同等、数据不正确和错失数据集成机会的风险。 良好的数据架构可以使数据存储方式标准化,并且大概减少重复,从而改善质量和团体分析。

   
2.进步数据质量:经心计划的数据架构可以解决管理不善的数据湖(也称为“数据沼泽”)所带来的一些挑战。 数据沼泽缺乏适当的数据质量和数据管理实践来提供有洞察力的学习。 数据架构可以帮助实施数据管理和数据安全标准,从而对数据管道进行适当的监督,使其按预期运行。 通过改进数据质量和管理,数据架构可以确保数据以一种现在和将来都具有价值的方式存储。

   
3.支持集成:由于数据存储的技术限制和企业内部的构造停滞,数据常常孤立存在。 当今的数据架构应该旨在促进跨域数据集成,以便不同的地理地区和业务部分可以访问彼此的数据。 这有助于对常用指标(例如费用、收入以及相关驱动因素)形成更正确、更同等的理解。 它还支持更全面地相识客户、产品和地理位置,从而更好地为决策提供信息。

   
4.数据生命周期管理:现代数据架构可以解决怎样随时间推移管理数据的问题。 随着存在时间的增长和访问频率的降低,数据的使用价值通常会减少。 随着时间的推移,可以将数据迁徙到本钱更低、速度更慢的存储范例,这样就可以继承用于陈诉和审计,但无需使用高性能存储。

   
FineDataLink是一款低代码/高时效的数据集成平台,它不但提供了数据整理和数据分析的功能,还可以或许将整理后的数据快速应用到其他应用步伐中。FineDataLink的功能非常强大,可以轻松地连接多种数据源,包罗数据库、文件、云存储等,而且支持大数据量。此外,FineDataLink还支持高级数据处理功能,例如数据转换、数据过滤、数据重构、数据聚集等。使用FineDataLink可以明显进步团队协作服从,减少数据连接和输出的繁琐步调,使整个数据处理流程更加高效和便捷。

               
免费试用、获取更多信息,点击相识更多>>>体验FDL功能

     
相识更多数据仓库与数据集成关干货内容请关注>>>FineDataLink官网

                       
往期推荐:

      
OLAP与OLTP:数据处理系统的两种焦点架构_oltp,olap-CSDN博客

      
【大数据】什么是数据对接?(附方法及工具先容)_数据接口对接定义-CSDN博客

      
什么是湖仓一体?湖仓一体解决了什么问题?-CSDN博客


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

刘俊凯

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表