读DAMA数据管理知识体系指南43大数据和数据科学概念
https://img2024.cnblogs.com/blog/3076680/202504/3076680-20250407144231927-1144169740.png1. 业务驱动
1.1. 盼望捉住从多种流程生成的数据会合发现的商机,是提升一个组织大数据和数据科学本领的最大业务驱动力
1.2. 大数据可以通过对更多、更大的数据集进行探索来激发创新,这些数据可用来界说预判客户需求的猜测模型,并实现产品和服务的个性化展示
1.3. 数据科学可以提升运营水平
1.4. 呆板学习算法可以将那些复杂且耗时的运动实现主动化,从而提升组织效率、削减本钱、降低风险
2. 原则
2.1. 大数据的前景——它将提供一种别具一格的洞察力——取决于能否管理大数据
2.2. 组织应仔细管理与大数据源相干的元数据,以便对数据文件及其泉源和价值进行准确的清单管理
3. 数据科学
3.1. 数据科学将数据挖掘、统计分析和呆板学习与数据集成整合,结合数据建模本领,去构建猜测模型、探索数据内容模式
3.2. 从数据中探究、研发猜测模型、呆板学习模型、规范性模型和分析方法并将研发效果进行部署供相干方分析的人,被称为数据科学家
[*]3.2.1. 数据科学家提出了一个关于行为的假设,即特定的行为是可以在具体行动之前的数据中被观察到的
[*]3.2.2. 数据科学家分析大量的汗青数据,以确定假设在过去真实发生的频率,并从统计学上验证模型大概的准确性
3.3. 随着收集和分析大型数据集本领的提升,数据科学家已经从数学、统计学、计算机科学、信号处理、概率建模、模式辨认、呆板学习、不确定建模以及数据可视化等方面综合了各种方法,根据大数据集对行为进行猜测,以获得更多的信息
[*]3.3.1. 数据科学家已经找到了分析数据和从数据中获取价值的新方法
3.4. 开发数据科学解决方案,包括将数据源迭代地整合到开发洞察力的模型中
3.5. 数据科学依赖于
[*]3.5.1. 丰富的数据源
[*]3.5.1.1. 具有可以或许展示隐蔽在组织或客户行为中不可见模式的潜力
[*]3.5.2. 信息组织和分析
[*]3.5.2.1. 用来领会数据内容,结合数据集针对有意义模式进行假设和测试的技能
[*]3.5.3. 信息交付
[*]3.5.3.1. 针对数据运行模型和数学算法,进行可视化展示及其他方式输出,以此加强对行为的深入洞察
[*]3.5.4. 展示发现和数据洞察
[*]3.5.4.1. 分析和展现效果,分享洞察观点对比了传统的数据堆栈/商务智能与基于数据科学技能实现的猜测性分析和规范性分析的作用
3.6. 过程
[*]3.6.1. 界说大数据战略和业务需求
[*]3.6.1.1. 界说一些可权衡的、可以或许产生实际收益的需求
[*]3.6.2. 选择数据源
[*]3.6.2.1. 在当前的数据资产库中辨认短板并找到数据源以补充短板
[*]3.6.3. 收罗和提取数据资料
[*]3.6.3.1. 收集数据并加载利用它们
[*]3.6.4. 设定数据假设和方法
[*]3.6.4.1. 通过对数据进行剖析、可视化和挖掘来探索数据源
[*]3.6.5. 集成和调整数据进行分析
[*]3.6.5.1. 模型的可行性部分取决于源数据的质量
[*]3.6.6. 利用模型探索数据
[*]3.6.6.1. 对集成的数据应用统计分析和呆板学习算法进行验证、训练,并随着时间的推移演化模型
[*]3.6.7. 部署和监控
[*]3.6.7.1. 可以将产生有用信息的那些模型部署到生产情况中,以持续监控它们的价值和有用性
[*]3.6.7.2. 通常,数据科学项目会转酿成数据堆栈项目
4. 大数据
4.1. 大数据和数据科学都是促使人们产生、存储和分析海量数据的重大技能厘革
4.2. 人们可以利用数据来猜测和干预行为,以及获得诸如医疗健康实践、天然资源管理和经济发展等一系列重要课题的洞察本领
4.3. 大数据不仅指数据的量大,也指数据的种类多(布局化的和非布局化的,文档、文件、音频、视频、流数据等),以及数据产生的速度快
4.4. 传统的商务智能(BI)提供“后视镜”式的陈诉,通太过析布局化的数据展示过去的趋势
[*]4.4.1. BI模式被用来猜测未来的行为,但它不具备高可信度
4.5. 数据分析一直依赖于采样或其他抽象方法的近似模式
4.6. 随着大数据被加载到数据堆栈和商务智能情况中,数据科学技能被用来为组织提供前瞻性的视图(“挡风玻璃”)
4.7. 要想利用大数据,就必须改变数据的管理方式
[*]4.7.1. 大多数数据堆栈都基于关系模型,而大数据一样平常不接纳关系模型组织数据
[*]4.7.2. 大多数数据堆栈依赖于ETL(提取、转换和加载)的概念
[*]4.7.2.1. 大数据解决方案,如数据湖,则依赖于ELT的概念——先加载后转换
[*]4.7.3. 数据的生产速度和容量带来了寻衅,需要在数据管理的各个关键领域中接纳不同的方法,如集成、元数据管理和数据质量评估
4.8. 3V来界说大数据含义的特性
[*]4.8.1. 数据量大(Volume)、数据更新快(Velocity)、数据类型多样/可变(Variety)
4.9. V列表有了更多的扩展
[*]4.9.1. 数据量大(Volume)
[*]4.9.1.1. 大数据通常拥有上千个实体或数十亿个记载中的元素
[*]4.9.2. 数据更新快(Velocity)
[*]4.9.2.1. 指数据被捕捉、生成或共享的速度
[*]4.9.2.2. 大数据通常实时地生成、分发及进行分析
[*]4.9.3. 数据类型多样/可变(Variety/Variability)
[*]4.9.3.1. 指抓取或通报数据的情势
[*]4.9.3.2. 大数据需要多种格式储存
[*]4.9.3.3. 通常,数据集内或跨数据集的数据布局是不一致的
[*]4.9.4. 数据黏度大(Viscosity)
[*]4.9.4.1. 指数据利用或集成的难度比力高
[*]4.9.5. 数据波动性大(Volatility)
[*]4.9.5.1. 指数据更改的频率,以及由此导致的数据有用时间短
[*]4.9.6. 数据准确性低(Veracity)
[*]4.9.6.1. 指数据的可靠程度不高
4.10. 大数据的量非常大(通常大于100TB,在1PB~1EB范围内)
[*]4.10.1. 在数据堆栈和分析解决方案中,非常庞大的数据量对数据加载、建模、清算和分析构成了寻衅,通常通过大规模并行处理或分布式并行处理数据方案来应对
[*]4.10.2. 过大的数据集需要改变数据存储和访问的总体方式、数据的理解方式(如目前对数据的大部分思考方式都基于关系数据库布局),以及数据的管理方式
4.11. 大数据架构组件
[*]4.11.1. 大数据和数据科学情况的选择、安装和配置需要相应的专业知识,必须针对现有的和新购置的数据探索工具开发和优化端到端的架构
[*]4.11.2. DW/BI与大数据处理之间最大的区别
[*]4.11.2.1. 在传统的数据堆栈中,数据在进入堆栈时进行整合(提取、转换、加载)
[*]4.11.2.2. 在大数据情况中,数据在整合之前就进行吸取和加载(提取、加载、转换)
[*]4.11.3. ETL和ELT之间的差别对数据管理方式具有重要影响
4.12. 大数据泉源
[*]4.12.1. 由于人类的许多运动都是以电子的方式实行的,因此随着我们活着界各地旅行的脚步、相互之间的相互交流以及进行的商务买卖业务等,每天都会产生海量的数据,大数据会通过电子邮件、社交媒体、在线订单甚至在线视频游戏生成
5. 数据湖
5.1. 数据湖是一种可以提取、存储、评估和分析不同类型和布局海量数据的情况,可供多种场景利用
5.2. 数据科学家可以挖掘和分析数据的情况
5.3. 原始数据的会合存储区域,只需很少量的转换
5.4. 数据堆栈明细汗青数据的备用存储区域
5.5. 信息记载的在线归档
5.6. 可以通过主动化的模型辨认提取流数据的情况
5.7. 数据湖可以作为Hadoop或其他数据存储系统、集群服务、数据转换和数据集成等数据处理工具的一种复合配置来实行
5.8. 数据湖的风险在于,它大概很快会酿成数据沼泽——紊乱、不干净、不一致
[*]5.8.1. 为了建立数据湖中的内容清单,在数据被摄取时对元数据进行管理至关重要
[*]5.8.2. 为了理解数据湖中的数据是如何关联和连接的,数据架构师或者数据工程师通常利用单一键值或其他技能(语义模型、数据模型等),科学家和其他可视化开发人员通过这些技能数据即可知道如何利用数据湖中存储的信息
6. 基于服务的架构
6.1. 基于服务的体系布局(Services-Based Architecture, SBA)正在成为一种立即提供(如果不是完全准确或完备)数据的方法,并利用类似的数据源来更新完备、准确的汗青数据集
6.2. SBA架构
[*]6.2.1. 批处理层(Batch Layer)
[*]6.2.1.1. 数据湖作为批处理层提供服务,包括近期的和汗青的数据
[*]6.2.1.2. 批处理层通常被称为随时间变化的布局组件(这里每个事务都是一个插入)
[*]6.2.2. 加速层(Speed Layer)
[*]6.2.2.1. 只包括实时数据
[*]6.2.2.2. 在加速层(通常被称为操纵型数据存储或ODS)中,所有事务都是更新的(或者只有在需要时才插入)
[*]6.2.3. 数据被加载到批处理层和加速层中
[*]6.2.4. 服务层(Serving Layer)
[*]6.2.4.1. 提供连接批处理和加速层数据的接口
[*]6.2.4.2. 服务层确定提供哪里的数据作为“服务”,并适当提供被需求的数据
7. 呆板学习
7.1. 呆板学习(Machine Learning)探索了学习算法的构建和研究,它可以被视为无监督学习和监督学习方法的结合
[*]7.1.1. 通过编程使呆板可以快速地从查询中学习并适应不停变化的数据集,从而在大数据中引入一个全新的领域,称为呆板学习
7.2. 监督学习(Supervised learning)
[*]7.2.1. 基于通用规则
[*]7.2.2. 监督学习是基于复杂的数学理论,特殊是统计学、组合学和运筹学
7.3. 无监督学习(Unsupervised learning)
[*]7.3.1. 基于找到的那些隐蔽的规律(数据挖掘)
[*]7.3.2. 无监督学习通常被称为数据挖掘
7.4. 强化学习(Reinforcement learning)
[*]7.4.1. 基于目的的实现(如在国际象棋中击败对手)
[*]7.4.2. 即没有通过教师的认可就实现了目的优化,如驾驶车辆
7.5. 统计建模和呆板学习已被用于对那些本钱高昂的研究和开发项目进行主动化,通过对大量数据进行多次试错,重复试验并收集、分析效果来纠正错误
7.6. 虽然呆板学习以新的方式利用数据,但它也存在许多伦理方面的问题,特殊是在透明性原则方面
[*]7.6.1. 深度学习神经网络(DLNN)算法卓有成效,它们能学习许多事情
[*]7.6.2. 我们对它们究竟是如何学习的并不是很清楚
[*]7.6.3. 随着驱动这些过程的算法变得更加复杂,它们也就变得更加不透明,像“黑盒子”一样工作
[*]7.6.4. 算法也测试了人类解释呆板的本领极限
[*]7.6.5. 随着此功能的发展,对透明性的需求(可以或许看到如何做出决议的本领)大概会增加,并扩大投入利用的范围
8. 语义分析
8.1. 媒体监控和文天职析是从大量非布局化或半布局化数据(如事务数据、社交媒体、博客和Web新闻网站)中检索并获得看法的主动化方法,用于感知人们对品牌、产品、服务或其他类型主题的感觉和看法
8.2. 利用天然语言处理(NLP)分析短语或句子、语义察觉感情,并展现感情的变化,以猜测大概的情景
8.3. 感情是不容易被准确地捕捉的
9. 数据和文本挖掘
9.1. 数据挖掘(Data mining)是一种特殊的分析方法,它利用各种算法展现数据中的规律
9.2. 最初是呆板学习的一个分支,属于人工智能的一个子领域
9.3. 标准化的查询和报表工具能发现一些具体的问题,而数据挖掘工具通过展现规律来帮助发现未知的关系
9.4. 数据挖掘是探索阶段的一项关键运动,因为它有助于快速辨认需要研究的数据元素,辨认从前未知、不清楚或未分类的新关系,并为所研究的数据元素提供分类的布局
9.5. 文本挖掘利用文天职析和数据挖掘技能来分析文档,将内容主动进行分类,成为工作流导向和领域专家导向的知识本体
9.6. 剖析(Profiling)
[*]9.6.1. 剖析尝试描述个人、群体或人群的典型行为,用于建立非常检测应用程序的行为规范,如欺诈检测和计算机系统入侵监控
[*]9.6.2. 剖析效果是许多无监督学习组件的输入
9.7. 数据缩减(Data reduction)
[*]9.7.1. 数据缩减是接纳较小的数据集来更换大数据集,较小数据会合包含了较大数据会合的大部分重要信息
[*]9.7.2. 较小的数据集大概更易于分析或处理操纵
9.8. 关联(Association)
[*]9.8.1. 关联是一种无监督的学习过程,根据买卖业务涉及的元素进行研究,找到它们之间的关联
9.9. 聚类(Clustering)
[*]9.9.1. 基于数据元素的共享特性,将它们聚合为不同的簇
9.10. 自组织映射(Self-organizing maps)
[*]9.10.1. 自组织映射是聚类分析的神经网络方法,有时被称为Kohonen网络或拓扑有序网络,旨在减少评估空间中的维度,同时尽大概地保留间隔和邻近关系,类似于多维度缩放
10. 猜测分析
10.1. 猜测分析(Predictive Analytics)是有监督学习的子领域,用户尝试对数据元素进行建模,并通过评估概率估算来猜测未来效果
10.2. 猜测分析深深植根于数学,特殊是统计学,与无监督学习拥有许多类似的组成部分,对预期猜测效果进行丈量时差别是可控的
10.3. 猜测分析是基于大概事件(购买、价格变化等)与可变因素(包括汗青数据)的概率模型开发
10.4. 触发因素是大量实时数据的累积,如大量的买卖业务或服务请求,抑或情况的剧烈波动
[*]10.4.1. 监督数据事件流包括在渐渐构建的密集模型,直至达到在模型中界说的阈值
10.5. 猜测模型在做出猜测和被猜测的事件发生之间提供的时间通常非常短
[*]10.5.1. 投资于极低耽误的技能解决方案,如内存数据库、高速网络,甚至物理上接近数据源,都可以优化提升组织对猜测做出反应的本领
10.6. 猜测模型的最简单情势是预估(Forecast)
[*]10.6.1. 平滑数据的最简单方法是通过移动平均值,甚至是加权移动平均值
11. 规范分析
11.1. 规范分析(Prescriptive Analytics)比猜测分析更进一步,它对将会影响效果的动作进行界说,而不仅仅是根据已发生的动作猜测效果
11.2. 规范分析预计将会发生什么,何时会发生,并暗示它将会发生的缘故原由
11.3. 规范分析可以不停吸取新数据以重新猜测和重新规定
[*]11.3.1. 该过程可以进步猜测准确性,并提供更好的方案
12. 非布局化数据分析
12.1. 非布局化数据分析(Unstructured Data Analytics)结合了文本挖掘、关联分析、聚类分析和其他无监督学习技能来处理大型数据集
12.2. 监督学习技能也可用于在编程过程中提供方向、监督和指导,利用人为干预在必要时解决歧义问题
12.3. 扫描和标记是向非布局化数据添加“钩子”的一种方法,它允许对相干布局化数据进行链接和筛选
13. 运营分析
13.1. 运营分析(Operational Analytics),也称为运营BI或流式分析,其概念是从运营过程与实时分析的整合中产生的
13.2. 运营分析包括用户细分、感情分析、地理编码以及应用于数据集的其他技能,用于营销运动分析、贩卖突破、产品推广、资产优化和风险管理
13.3. 运营分析包括跟踪和整合实时信息流,根据行为猜测模型得出结论,并触发主动响应和警报
[*]13.3.1. 计划成功分析所需的模型、触发器和响应需要对数据本身进行更多的分析
[*]13.3.2. 运营分析解决方案包括对行为模型预填充所需汗青数据的准备
13.4. 一旦确定猜测模型既有用果又有本钱效益上风,则整合了汗青和当前数据(包括实时和流数据、布局化和非布局化数据)的解决方案,就可以被用来填充猜测模型并根据猜测触发操纵
13.5. 在猜测金融市场行为时,经常利用汗青价格信息和汗青价格变动率提前进行预计算,以便及时响应触发事件
14. 数据可视化
14.1. 可视化(Visualization)是通过利用图片或图形表示来解释概念、想法和事实的过程
14.2. 数据可视化通过视觉概览(如图表或图形)来帮助理解底子数据
14.3. 数据可视化压缩并封装特性数据,使其更易于检察
14.4. 可视化一直是数据分析的关键
[*]14.4.1. 传统BI工具包括诸多可视化选项,如表格、饼图、折线图、面积图、条形图、直方图和烛台图
[*]14.4.2. 为了满足日益增长的理解数据的需求,可视化工具的数量不停增加,技能也得到了长足的进步
[*]14.4.3. 随着数据分析的成熟,以新的方式可视化数据将具有战略上风
14.5. 业务分析部分将寻求具有可视化技能的数据专家,包括数据科学家、数据艺术家和数据视觉专家,以及传统的信息架构师和数据建模师
15. 数据混搭
15.1. 数据混搭(Data Mashups)将数据和服务结合在一起,以可视化的方式展示看法或分析效果
15.2. 在网页中,安全的数据混搭技能实现了跨供应商或提供者地共享个人或机密信息
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]