读DAMA数据管理知识体系指南44大数据和数据科学活动

打印 上一主题 下一主题

主题 1732|帖子 1732|积分 5196


1. 定义大数据战略和业务需求

1.1. 组织的大数据战略需要与其整体业务战略和业务需求保持一致并提供支持,并成为其数据战略的一部门
1.2. 一个组织的大数据战略将推动其明白大数据能力门路图的范围和时间
1.3. 组织试图解决什么问题,需要分析什么
1.4. 要使用或获取的数据源是什么

  • 1.4.1. 内部资源可能易于使用,但也可能在范围上受到限制
  • 1.4.2. 外部资源可能很有用,但不在业务控制范围内
1.5. 提供数据的及时性和范围
1.6. 对其他数据结构的影响以及与其他数据结构的相干性
1.7. 对现有建模数据的影响

  • 1.7.1. 包括扩展对客户、产品和营销方法的知识
2. 选择数据源

2.1. 数据科学工作的数据源选择必须由组织试图解决的问题驱动
2.2. 用于选择或过滤数据的筛选条件也存在风险,应客观地管理这些标准,以制止偏见或偏差
2.3. 数据源头
2.4. 数据格式
2.5. 数据元素代表什么
2.6. 如何连接其他数据
2.7. 数据的更新频率
2.8. 基础数据
2.9. 粒度

  • 2.9.1. 理想情况下,以最细粒度的形式获取数据(未聚合)​,这样可以用于各种目标聚合
2.10. 一致性

  • 2.10.1. 如果可能,选择超越可视化和认知限制、合适且一致的数据
2.11. 可靠性

  • 2.11.1. 选择长时间稳固可靠的数据源
  • 2.11.2. 采用权威来源的可信数据
2.12. 检查/分析新数据源

  • 2.12.1. 在添加新数据集之前,需要对变更情况进行测试
  • 2.12.2. 随着新数据源的加入,可视化结果可能会发生意想不到的重大变化
3. 获得和接收数据源

3.1. 一旦确定好数据资料,就需要找到它们,有时候还需要购买它们,并将它们提取(加载)到大数据环境中
3.2. 评估过程提供了有关如何将数据与其他数据集(如主数据或历史堆栈数据)整合的名贵见解,以及可用于模子训练集和验证活动的信息
4. 制定数据假设和方法

4.1. 数据科学能够发现数据的意义和此中蕴含见解的答案集
4.2. 制订数据科学解决方案需要构建统计模子,找出数据元素和数据集内部以及二者之间的相干性和趋势
4.3. 模子的结果取决于输入数据的质量和模子自己的健全性
5. 集成和调整数据进行分析

5.1. 准备用于分析的数据包括了解数据中的内容、查找各种来源的数据间的链接以及调整常用数据以供使用
5.2. 连接数据源更像是一门艺术,而不是一门科学
5.3. 一种方法是使用共有键值整合数据的通用模子
5.4. 另一种方法是使用数据库引擎内的索引扫描和连接数据,以获得相似性和记录链接的算法和方法
6. 使用模子探索数据

6.1. 添补预测模子

  • 6.1.1. 需要使用历史信息预先添补配置预测模子,这些信息涉及模子中的客户、市场、产品或模子触发因素之外的其他因素
6.2. 训练模子

  • 6.2.1. 需要通过数据模子进行训练
  • 6.2.2. 训练包括基于数据重复运行模子以验证假设,将导致模子更改
  • 6.2.3. 训练需要平衡,通过针对有限数据文件夹的训练制止过度拟合
  • 6.2.4. 识别非常值或反常征象(不符合被研究元素所体现出来的一般行为的数据对象)对于评估模子至关重要
  • 6.2.5. 数据流需要特别关注极低延迟处置处罚能力的设计和开发,在某些模子中存在预测值在一秒之内差异的极端需求,而解决方案可能需要创新技术和光速限制
  • 6.2.6. 模子可以使用开源库中很多可用的统计函数和技术,此中一个是R语言

    • 6.2.6.1. R语言是用于统计计算的免费软件环境,它包含很多可作为服务被调用的功能

6.3. 评估模子

  • 6.3.1. 将数据放入平台并准备分析后,数据科学就开始了
  • 6.3.2. 数据科学家针对数据运行查询和算法,查察是否有任何见解显现出来,通常会运行很多不同的数学函数以查察是否找到任何有用的信息
  • 6.3.3. 在评估模子时,需要用到数据科学实践中的一个道德组件

    • 6.3.3.1. 全部人工智能(AI)从业者都应该被要求去进行道德培训
    • 6.3.3.2. 仅仅有道德还不够,道德伦理可以帮助从业者了解他们对全部利益相干方的责任,但是道德培训需要通过技术能力得到增强,通过采取技术防备措施,建立和测试系统,将良美意愿付诸实践

6.4. 创建数据可视化

  • 6.4.1. 模子的数据可视化必须满足与模子目标相干的特定需求,每个可视化应该能够答复一个问题或提供一个见解
  • 6.4.2. 设定可视化的目标和参数:时间点状态、趋势与非常、移动部门之间的关系、地理差异及其他
  • 6.4.3. 数据“故事讲述”可以将新问题链接到数据探索的上下文环境中
  • 6.4.4. 只有利用相干数据可视化讲述数据故事,才能获得最佳结果
7. 部署和监控

7.1. 满足业务需求的模子,必须以可行的方式部署到生产中,以获得持续监控
7.2. 揭示洞察和发现

  • 7.2.1. 通过数据可视化来展示发现和数据洞察是数据科学研究的末了一步,洞察应与行动项目相干联,这样组织才能从数据科学工作中受益
7.3. 使用附加数据源迭代

  • 7.3.1. 展示发现和数据洞察,通常会产生新的问题,这又会触发新的研究过程
  • 7.3.2. 数据科学是一个迭代的过程,因此大数据开发需要迭代的支持
  • 7.3.3. 从特定的一组数据源中学习的过程,通常会导致需要不同的或额外的数据源,以支持得到的结论并向现有模子中添加洞察
8. 工具

8.1. 技术进步(摩尔定律、手持设备的激增、物联网等)创造了大数据和数据科学产业
8.2. 数据库内的高级分析
8.3. 非结构化数据分析(Hadoop, MapReduce)
8.4. 分析结果与操作系统的集成
8.5. 跨多媒体和设备的数据可视化
8.6. 链接结构化和非结构化信息的语义
8.7. 使用物联网的新数据源
8.8. 高级可视化能力
8.9. 数据扩展能力
8.10. 技术和工具集的协作
8.11. 访问非结构化数据过去经常通过批处置处罚查询接口进行,导致筹划实行缓慢和响应时间漫长

  • 8.11.1. 大数据内存技术可以满足即时查询、报告和分析能力的需要,这些技术允许最终用户构建类SQL查询,来访问非结构化数据
8.12. 决议标准工具集、流程实施工具和专业服务等,可以促进和加速选择初始工具集的过程
8.13. MPP无共享技术和架构

  • 8.13.1. 大规模并行处置处罚(MPP)的出现是大数据和数据科学的首批推动者之一,因为它提供了在相对较短的时间内分析巨量信息的本领
  • 8.13.2. 该架构没有磁盘共享,也不发生内存争用,因此称作“无共享”
  • 8.13.3. MPP逐步发展起来,是因为传统的计算模式(索引、分布式数据集等)不能在大规模表的处置处罚上提供可接受的响应时间
  • 8.13.4. 即使是最强盛的计算平台(Cray计算机,曾经是世界上最快的超级计算机)也需要花费数小时甚至数天对万亿行记录的表进行复杂计算
  • 8.13.5. 架构具有线性可扩展性,增加了对数据科学家和大数据用户的吸引力,可以通过可扩展的平台适应增长
  • 8.13.6. 该技术还支持数据库内分析功能——在处置处罚器级实行分析功能(如K-means聚类、回归分析等)的能力
  • 8.13.7. 将工作负载分配到处置处罚器级别,可大大加速分析查询速率,从而推动数据科学的创新
  • 8.13.8. 在全部可用的本地化硬件上,自动分发数据和并行化查询工作负载的系统是大数据分析的最佳解决方案
  • 8.13.9. 数据量正在快速增长

    • 8.13.9.1. 公司可以随着时间的推移通过添加新节点扩充系统的容量并提升性能
    • 8.13.9.2. MPP可以轻松扩展数百或数千个内核的并行性
    • 8.13.9.3. 大规模并行计算,无共享架构充实使用每个内核,使大型数据集上具备线性扩展性和更高的处置处罚性能

8.14. 基于分布式文件的数据库

  • 8.14.1. 分布式文件的解决方案技术,如开源的Hadoop,是以不同格式存储巨量数据的便宜方式
  • 8.14.2. Hadoop存储任何类型的文件——结构化、半结构化和非结构化

    • 8.14.2.1. 使用雷同于MPP无共享(用于文件存储的MPP基础)的配置,能够跨处置处罚服务器共享文件
    • 8.14.2.2. 它是安全存储数据(制作多个副本)的理想工具,但在通过结构化或分析机制(如SQL)访问数据时会碰到挑战

  • 8.14.3. 由于资源相对较低,Hadoop已成为很多组织的首要选择
  • 8.14.4. 在Hadoop上,数据可被移动到MPP无共享数据库,以便运行算法
  • 8.14.5. 基于文件的解决方案中使用的模子称为MapReduce

    • 8.14.5.1. 映射(Map)
      8.14.5.1.1. 识别和获取需要分析的数据

    • 8.14.5.2. 洗牌(Shuffle)
      8.14.5.2.1. 依据所需的分析模式组合数据

    • 8.14.5.3. 归并(Reduce)
      8.14.5.3.1. 删除重复或实行聚合,以便将结果数据集的大小减少到需要的规模


8.15. 数据库内算法

  • 8.15.1. 数据库内算法(In-database algorithm)使用雷同MPP的原则
  • 8.15.2. 通过移动计算靠近数据,可显著减少复杂算法(如K-means聚类、逻辑或线性回归、曼-惠特尼U检验、共轭梯度、群组分析等)的计算时间
8.16. 大数据云解决方案
8.17. 统计计算和图形语言

  • 8.17.1. R语言是用于统计计算和图形的开源脚本语言和环境

    • 8.17.1.1. 它提供了各种各样的统计技术,如线性和非线性建模、经典统计检验、时间序列分析、分类和聚类
    • 8.17.1.2. 它是一种脚本语言,以是用R开发的模子可以在多种环境、不同平台和协作开发中实现,这种协作可以是跨多个地理和组织界限的

  • 8.17.2. R环境还可以在最终用户的控制下创建出书高品质的图,包括数学符号和公式
8.18. 数据可视化工具集

  • 8.18.1. 数据可视化中的传统工具有数据和图形组件
  • 8.18.2. 高级可视化和发现工具使用内存架构,使用户能够与数据交互,展示难以识别的大数据集的模式
  • 8.18.3. 信息图形或信息图表是为有效进行交互和明白而设计的图形表示
  • 8.18.4. 复杂的分析和可视化类型,如格子图、火花线、热图、直方图、瀑布图和子弹图
  • 8.18.5. 内置可视化最佳实践
  • 8.18.6. 交互性,实现视觉发现

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

半亩花草

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表