读DAMA数据管理知识体系指南45大数据和数据科学实施指南 ...

打印 上一主题 下一主题

主题 1844|帖子 1844|积分 5542


1. 方法

1.1. 解析建模

  • 1.1.1. 实时访问可以办理批处理中的很多延迟题目
  • 1.1.2. Apache Mahout是一个开源项目,旨在创建一个机器学习库
  • 1.1.3. 解析模子与不同的分析深度相干联

    • 1.1.3.1. 形貌性建模以紧凑的方式汇总或体现数据结构
      1.1.3.1.1. 这种方法并不总能验证因果假设或猜测效果,但确实可以或许使用算法定义或改善变量之间的关系,从而为这种分析提供输入

    • 1.1.3.2. 解释性建模是数据统计模子的应用,主要是验证关于理论构造的因果假设
      1.1.3.2.1. 固然它使用类似于数据挖掘和猜测分析的技术,但其目的却不同
      1.1.3.2.2. 它不能猜测效果,只是将模子效果与现有数据相匹配
      1.1.3.2.3. 猜测分析的关键是通过训练模子来学习,学习方法的效果取决于它在测试集(与训练集相互独立)上的猜测本领
      1.1.3.2.4. 评估将指导学习算法的选择并度量所选模子的质量
      1.1.3.2.5. 制止过度拟合——这种情况发生在用于训练模子的数据集不具有代表性,模子过于复杂,或者将少量噪声数据具有的特性当作大部分数据的共性时
      1.1.3.2.6. 训练误差会随着模子复杂性的提高而持续降低,而且可以降至零
      1.1.3.2.6.1. 它不是对测试误差的可用估量
      1.1.3.2.6.2. 将数据集随机分为三个部分:训练集、测试集和校验集
      1.1.3.2.6.3. 重复使用雷同的测试集大概会低估真正的测试误差


1.2. 大数据建模

  • 1.2.1. 大数据建模是一项技术挑战,对想要形貌和管控数据的组织而言至关重要
  • 1.2.2. 对数据仓库举行物理建模的主要驱动因素是为查询性能而启用数据填充
  • 1.2.3. 应用颠末验证的数据建模技术,必要同时考虑各种源,至少用概括的方式开辟主题域模子,如许一来它就可与适当的上下文实体相干联,并被放入整体路线图中,就像任何其他类型的数据一样
  • 1.2.4. 挑战在于只付出合理的代价就可以从这些大型数据会合获得可理解且有用的图景
  • 1.2.5. 必要相识数据集之间的数据的链接方式
  • 1.2.6. 对于不同粒度的数据,必要防止对数据元素或值举行多次计数的组合
2. 实施指南

2.1. 管理数据仓库数据的很多一般规则实用于管理大数据:确保数据源可靠、具有足够的元数据以支持数据使用、管理数据质量、确定怎样整合来自不同源的数据,以及确保数据安全且受到保护
2.2. 数据速度大概会导致人们以为他们没有时间实施控制

  • 2.2.1. 对于更大的数据集,管理摄取(ingestion)和库存数据对数据库黑白常重要的,以防它成为数据沼泽
2.3. 对正用于研究的数据集来说,摄取大概并不总是必要组织的全部权或委托

  • 2.3.1. 可以考虑租用大数据平台一段时间,以探索感爱好的数据
  • 2.3.2. 探索可以快速确定哪些区域具有潜在代价
  • 2.3.3. 在提取到组织数据湖、数据存储或数据暂时区域之前,执行数据探索;一旦提取,删除大概会比较困难
2.4. 战略一致性

  • 2.4.1. 任何大数据/数据科学项目都应该与组织目的战略一致
  • 2.4.2. 创建大数据战略可以推动与用户社区、数据安全、元数据管理、数据血缘和数据质量管理相干的运动
  • 2.4.3. 要素

    • 2.4.3.1. 信息生命周期
    • 2.4.3.2. 元数据
    • 2.4.3.3. 数据质量
    • 2.4.3.4. 数据收罗
    • 2.4.3.5. 数据访问和安全性
    • 2.4.3.6. 数据治理
    • 2.4.3.7. 数据隐私
    • 2.4.3.8. 学习和采用
    • 2.4.3.9. 运营

2.5. 停当评估/风险评估

  • 2.5.1. 业务相干性
  • 2.5.2. 业务准备情况
  • 2.5.3. 经济可行性
  • 2.5.4. 原型
  • 2.5.5. 大概最具挑战性的决议将围绕数据采购、平台开辟和资源配置举行
  • 2.5.6. 数字资料存储有很多来源,并非全部来源都必要内部拥有和运营
  • 2.5.7. 市场上有多种工具和技术,满足一般需求将是一个挑战
  • 2.5.8. 及时保护具有专业技能的员工,并在实施过程中留住顶尖人才,大概必要考虑替代方案,包罗专业服务、云采购或合作
  • 2.5.9. 培养内部人才的时间大概会超过交付窗口的时间
2.6. 组织与文化变迁

  • 2.6.1. 只有业务人员充分参与,才能从高级分析中获益,必要通过沟通和培训计划来影响这一点
  • 2.6.2. 大数据平台架构师

    • 2.6.2.1. 硬件、操纵体系、文件体系和服务

  • 2.6.3. 数据摄取架构师

    • 2.6.3.1. 数据分析、体系记载、数据建模和数据映射

  • 2.6.4. 元数据专家

    • 2.6.4.1. 元数据接口、元数据架构和内容

  • 2.6.5. 分析设计主管

    • 2.6.5.1. 最终用户分析设计、最佳实践依赖相干工具集指导实施,以及最终用户效果集简化

  • 2.6.6. 数据科学家

    • 2.6.6.1. 提供基于统计和可盘算性的理论知识,交付适当的工具和技术,应用到功能需求的架构和模子设计咨询

3. 大数据和数据科学治理

3.1. 寻源

  • 3.1.1. 来源有哪些,什么时候接入源,什么是特定研究的最佳数据来源
3.2. 共享

  • 3.2.1. 组织内部和外部要签订的数据共享协议和条约、条款和条件
3.3. 元数据

  • 3.3.1. 数据在源端意味着什么,怎样解释输出端的效果
3.4. 丰富

  • 3.4.1. 是否丰富数据,怎样丰富数据,以及丰富数据的长处
3.5. 访问

  • 3.5.1. 发布什么,向谁发布,怎样以及何时发布
3.6. 可视化渠道管理

  • 3.6.1. 乐成实现数据科学的方法因素,是为用户团体提供适当的可视化工具
3.7. 数据科学和可视化标准

  • 3.7.1. 分析范例、用户团体、主题域的工具标准
  • 3.7.2. 新数据的请求
  • 3.7.3. 数据集流程标准
  • 3.7.4. 采用中立的、专业的报告过程,制止产生有偏见的效果,并确保全部要素都以公平一致的方式完成

    • 3.7.4.1. 数据包含和清除
    • 3.7.4.2. 模子中的假设
    • 3.7.4.3. 效果统计有效性
    • 3.7.4.4. 效果解释的有效性
    • 3.7.4.5. 采用适当的方法

3.8. 数据安全

  • 3.8.1. 拥有可靠的数据保护流程自己就是一项组织资产,应创建和监控处理和保护大数据的政策
  • 3.8.2. 为授权人员安全地提供适当级别的数据,并根据议定的级别提供订阅数据
  • 3.8.3. 通常,组织会创建用于访问而不侵犯隐私的信息计谋
  • 3.8.4. 为保护高度敏感的信息(如社会安全号码、名誉卡号码等)​,将使用模糊信息的加密技术存储数据
  • 3.8.5. 重组会权衡重建敏感数据或私人数据的本领,必须将此本领作为大数据安全实践的一部分举行管理
  • 3.8.6. 理解元数据管理级别的效果,对于制止此类和其他潜在的安全违规行为至关重要
3.9. 元数据

  • 3.9.1. 作为大数据计划的一部分,组织将汇集使用不同方法和标准创建的数据集
  • 3.9.2. 元数据必要作为数据提取的一部分举行谨慎管理,否则数据湖将迅速成为数据沼泽
  • 3.9.3. 用户社区必须具备工具,使他们可以或许使用元数据创建数据集的主列表,元数据特性化数据的结构、内容和质量,包罗数据的来源、数据的血缘相沿、数据的定义,以及实体和数据元素的预期用途
  • 3.9.4. 技术元数据可以从各种大数据工具中获取,包罗数据存储层、数据整合、MDM甚至源文件体系
  • 3.9.5. 考虑实时数据、静态数据和盘算性数据元素,就要明确源端的数据相沿关系
3.10. 数据质量

  • 3.10.1. 数据质量是与预期效果偏差的度量:差异越小,数据满足期望越好,质量就越高
  • 3.10.2. 在大数据项目中,确定命据质量似乎非常困难,但必要积极评估质量,以便对分析充满信心
  • 3.10.3. 大多数成熟的大数据组织,使用数据质量工具集扫描数据输入源,以相识其中包含的信息
  • 3.10.4. 发现

    • 3.10.4.1. 信息驻留在数据会合的位置

  • 3.10.5. 分类

    • 3.10.5.1. 基于标准化模式存在哪些类型的信息

  • 3.10.6. 分析

    • 3.10.6.1. 怎样填充和构建数据

  • 3.10.7. 映射

    • 3.10.7.1. 可以将哪些其他数据集与这些值匹配

  • 3.10.8. 将数据质量评估放在末了是很吸引人的
  • 3.10.9. 代码和其他潜在的链接数据大概会因数据提供者而异
4. 度量指标

4.1. 技术使用指标

  • 4.1.1. 很多大数据工具都提供了富有洞察力的管理员报告功能,可直接与用户社区查询的内容举行交互
  • 4.1.2. 使用技术分析手段查找数据热点(最常访问的数据)​,以便管理数据分发和保持性能
  • 4.1.3. 增长率也有助于产能规划
4.2. 加载和扫描指标

  • 4.2.1. 加载和扫描指标定义了提取率以及与用户社区的交互
  • 4.2.2. 在收罗新数据源时,预期的加载指标会随着源被完全提取而达到峰值,然后趋于安稳
  • 4.2.3. 应用层大概会从执行日记中提供最佳数据使用指标
  • 4.2.4. 扫描指标应与查询处理相结合,这种处理大概发生在分析处理自身之外
4.3. 学习和故事场景

  • 4.3.1. 为了显示代价,大数据/数据科学项目必须权衡有形成果,以证明开辟办理方案和管理流程变动的本钱是合理的
  • 4.3.2. 已开辟模子的数量和准确性
  • 4.3.3. 已辨认的机会中实现的收入
  • 4.3.4. 制止已辨认的威胁所降低的本钱
  • 4.3.5. 分析的效果会讲述一些故事,这些故事会导致组织重新定位、重新振兴和新的机会
  • 4.3.6. 一个权衡标准可以是营销和高管发起新项目、新方案的数量

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

篮之新喜

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表