读DAMA数据管理知识体系指南39数据质量概念(上)

打印 上一主题 下一主题

主题 2015|帖子 2015|积分 6045


1. 数据质量

1.1. “数据质量”一词既指高质量数据的相关特性,也指用于衡量或改进数据质量的过程

  • 1.1.1. 如果数据满意数据消耗者应用需求的目标,就是高质量的
  • 1.1.2. 如果不满意数据消耗者应用需求的目标,就是低质量的
  • 1.1.3. 数据质量取决于使用数据的场景和数据消耗者的需求
1.2. 有用的数据管理涉及一系列复杂的、相互关联的过程,它使组织能够使用他们的数据来实现其战略目标

  • 1.2.1. 为各类应用计划数据模型、安全存储和访问数据、适本地共享数据、从数据中得到知识,以及保障满意业务需求的能力
1.3. 实现数据价值的前提是数据本身是可靠和可信的,换句话说,数据应是高质量的
1.4. 导致低质量数据产生的因素

  • 1.4.1. 组织缺乏对低质量数据影响的明白
  • 1.4.2. 缺乏规划
  • 1.4.3. 孤岛式体系计划
  • 1.4.4. 不同等的开发过程
  • 1.4.5. 不完整的文档
  • 1.4.6. 缺乏标准或缺乏管理
1.5. 全部数据管理的原则都应有助于提高数据质量,支持组织使用高质量数据应是全部数据管理原则的目标
1.6. 产生高质量数据必要跨职能的承诺和协调
1.7. 通过执行过程和项目管理,提前为高质量的数据做好预备,以应对与数据相关的不测或不可接受的风险
1.8. 没有一个组织拥有完美的业务流程、完美的技术流程或完美的数据管理实践,全部组织都会遇到与数据质量相关的问题
1.9. 正式的数据质量管理类似于其他产品范畴的连续质量管理,包括在整个生命周期制定标准,在数据创建、转换和存储过程中完善质量,以及根据标准度量数据来管理数据
1.10. 数据质量团队(Data Quality Program Team)

  • 1.10.1. 陈诉数据质量水平,到场数据问题的分析、问题的量化和优先级排序
1.11. 与数据管理和整体数据管理一样,数据质量管理不是一个项目,而是一项连续性工作

  • 1.11.1. 包括项目和维护工作,以及承诺进行沟通和培训
  • 1.11.2. 数据质量改进取得长期乐成取决于组织文化的改变及质量观念的创建
  • 1.11.3. 最关键的变革之一是关注他们的组织如何管理和提高数据质量
1.12. 数据质量管理的挑战之一,是与质量相关的期望并不总是已知的

  • 1.12.1. 客户可能不清楚自身的质量期望,数据管理人员也不会扣问这些需求
  • 1.12.2. 如果数据是可靠和可信的,那么数据管理专业人员必要更好地了解客户的质量要求,以及如何衡量数据质量
2. 业务驱动因素

2.1. 提高组织数据价值和数据使用的机会
2.2. 降低低质量数据导致的风险和本钱
2.3. 提高组织服从和生产力
2.4. 掩护和提高组织的声誉
2.5. 高质量数据比低质量数据更有价值

  • 2.5.1. 使用劣质数据布满风险​,会损害组织的声誉,导致罚款、收入损失、客户流失和负面的媒体曝光
  • 2.5.2. 羁系的需求通常要求高质量的数据
2.6. 许多直接本钱均与低质量数据有关

  • 2.6.1. 无法正确开具发票
  • 2.6.2. 增加客服电话量,降低解决问题的能力
  • 2.6.3. 因错失商业机会造成收入损失
  • 2.6.4. 影响并购后的整合希望
  • 2.6.5. 增加受欺诈的风险
  • 2.6.6. 由错误数据驱动的错误业务决策造成损失
  • 2.6.7. 因缺乏精良信誉而导致业务损失
2.7. 高质量数据本身并不是目标,它只是组织获取乐成的一种手段

  • 2.7.1. 值得信赖的数据不仅降低了风险,而且降低了本钱,提高了服从
  • 2.7.2. 当员工使用可靠的数据时,他们可以更快、更同等地回答问题
  • 2.7.3. 如果数据是正确的,他们能花更少的时间发现问题,而将更多的时间用于使用数据来得到洞察力、做决策和服务客户
3. 目标

3.1. 根据数据消耗者的需求,开发一种受管理的方法,使数据适合要求
3.2. 定义数据质量控制的标准和规范,并作为整个数据生命周期的一部门
3.3. 定义和实行丈量、监控和陈诉数据质量水平的过程
4. 原则

4.1. 紧张性

  • 4.1.1. 据质量管理应关注对企业及其客户最紧张的数据,改进的优先顺序应根据数据的紧张性以及数据不正确时的风险水平来判定
4.2. 全生命周期管理

  • 4.2.1. 数据质量管理应覆盖从创建或采购直至处置的数据全生命周期,包括其在体系内部和体系之间流转时的数据管理(数据链中的每个环节都应确保数据具有高质量的输出)​
4.3. 预防

  • 4.3.1. 数据质量方案的重点应放在预防数据错误和降低数据可用性等情形上,不应放在简单的纠正记录上
4.4. 根因修正

  • 4.4.1. 提高数据质量不只是纠正错误,因为数据质量问题通常与流程或体系计划有关,所以提高数据质量通常必要对流程和支持它们的体系进行更改,而不仅仅是从表象来明白和解
4.5. 管理

  • 4.5.1. 数据管理活动必须支持高质量数据的开发,数据质量规划活动必须支持和维持受管理的数据情况
4.6. 标准驱动

  • 4.6.1. 数据生命周期中的全部利益相关方都会有数据质量要求
  • 4.6.2. 在可能的情况下,对于可量化的数据质量需求应该以可丈量的标准和期望的形式来定义
4.7. 客观丈量和透明度

  • 4.7.1. 数据质量水平必要得到客观、同等的丈量
4.8. 嵌入业务流程

  • 4.8.1. 业务流程全部者对通过其流程生成的数据质量负责,他们必须在其流程中实行数据质量标准
4.9. 体系逼迫执行

  • 4.9.1. 体系全部者必须让体系逼迫执行数据质量要求
4.10. 与服务水平关联

  • 4.10.1. 数据质量陈诉和问题管理应纳入服务水平协议(SLA)
5. 关键数据

5.1. 大多数组织都有大量的数据,但并非全部的数据都划一紧张
5.2. 数据质量管理的一个原则是将改进的重点集中在对组织及其客户最紧张的数据上,这样做可以明白项目范围,并使其能够对业务需求产生直接的、可丈量的影响
5.3. 评估关键数据

  • 5.3.1. 羁系陈诉
  • 5.3.2. 财务陈诉
  • 5.3.3. 商业政策
  • 5.3.4. 连续谋划
  • 5.3.5. 商业战略,尤其是差别化竞争战略
5.4. 主数据至关紧张
6. 数据质量维度

6.1. 数据质量维度是数据的某个可丈量的特性

  • 6.1.1. 术语“维度”可以类比于丈量物理对象的维度(如长度、宽度、高度等)​
  • 6.1.2. 数据质量维度提供了定义数据质量要求的一组词汇,通过这些维度定义可以评估初始数据质量和连续改进的成效
  • 6.1.3. 维度是衡量规则的基础,其本身应该与关键流程中的潜在风险直接相关
6.2. Strong-Wang框架

  • 6.2.1. 内在数据质量

    • 6.2.1.1. 正确性
    • 6.2.1.2. 客观性
    • 6.2.1.3. 可信度
    • 6.2.1.4. 信誉度

  • 6.2.2. 场景数据质量

    • 6.2.2.1. 增值性
    • 6.2.2.2. 关联性
    • 6.2.2.3. 实时性
    • 6.2.2.4. 完整性
    • 6.2.2.5. 适量性

  • 6.2.3. 表达数据质量

    • 6.2.3.1. 可表明性
    • 6.2.3.2. 易明白性
    • 6.2.3.3. 表达同等性
    • 6.2.3.4. 简便性

  • 6.2.4. 访问数据质量

    • 6.2.4.1. 可访问性
    • 6.2.4.2. 访问安全性

6.3. Thomas Redman

  • 6.3.1. 数据项定义为“可表示的三元组”​:一个实体属性域与值的集合

    • 6.3.1.1. 维度可以与数据的任何组成部门相关联:模型(实体和属性)及其值

  • 6.3.2. 数据模型

    • 6.3.2.1. 内容
      6.3.2.1.1. 数据关联性
      6.3.2.1.2. 获取价值的能力
      6.3.2.1.3. 定义清晰性

    • 6.3.2.2. 详细程度
      6.3.2.2.1. 特性描述颗粒度


  • 6.3.3. 属性域的精准度

    • 6.3.3.1. 构成
      6.3.3.1.1. 自然性
      6.3.3.1.1.1. 每个属性在现实世界中应该有一个简单的对应物,且每个属性都应承载一个关于实体的单一事
      6.3.3.1.2. 可识别性
      6.3.3.1.2.1. 每个实体都应能与其他实体区分开来
      6.3.3.1.3. 同一性
      6.3.3.1.4. 最小必要冗余性

    • 6.3.3.2. 同等性
      6.3.3.2.1. 模型各组成部门的语义同等性
      6.3.3.2.2. 跨实体类型属性的结构同等性

    • 6.3.3.3. 应变性
      6.3.3.3.1. 健壮性
      6.3.3.3.2. 灵活性

    • 6.3.3.4. 数据值
      6.3.3.4.1. 正确性
      6.3.3.4.2. 完备性
      6.3.3.4.3. 时效性(Currency)
      6.3.3.4.4. 同等性

    • 6.3.3.5. 数据表达
      6.3.3.5.1. 得当性
      6.3.3.5.2. 可表明性
      6.3.3.5.3. 可移植性
      6.3.3.5.4. 格式精确性
      6.3.3.5.5. 格式灵活性
      6.3.3.5.6. 表达空值的能力
      6.3.3.5.7. 有用使用存储
      6.3.3.5.8. 数据的物理实例与其格式同等


6.4. Larry English

  • 6.4.1. 固有特性和实用特性

    • 6.4.1.1. 固有特性与数据使用无关,实用特性是动态的,与数据表达相关,其质量价值依靠数据的用途而不同

  • 6.4.2. 固有质量特性

    • 6.4.2.1. 定义的同等性
    • 6.4.2.2. 值域的完备性
    • 6.4.2.3. 有用性或业务规则同等性
    • 6.4.2.4. 数据源的正确性
    • 6.4.2.5. 反映现实的正确性
    • 6.4.2.6. 精确性
    • 6.4.2.7. 非冗余性
    • 6.4.2.8. 冗余或分布数据的等效性
    • 6.4.2.9. 冗余或分布数据的并发性

  • 6.4.3. 实用质量特性

    • 6.4.3.1. 可访问性
    • 6.4.3.2. 实时性
    • 6.4.3.3. 语境清晰性
    • 6.4.3.4. 可用性
    • 6.4.3.5. 多源数据的可整合性
    • 6.4.3.6. 得当性或事实完整性

6.5. DAMA UK

  • 6.5.1. 完备性

    • 6.5.1.1. 存储数据量与潜在数据量的百分比

  • 6.5.2. 唯一性

    • 6.5.2.1. 在满意对象识别的基础上不应多次记录实体实例(事物)​

  • 6.5.3. 实时性

    • 6.5.3.1. 数据从要求的时间点起代表现实的程度

  • 6.5.4. 有用性

    • 6.5.4.1. 如数据符合其定义的语法(格式、类型、范围)​,则数据有用

  • 6.5.5. 正确性

    • 6.5.5.1. 数据正确描述所描述的“真实世界”对象或事件的程度

  • 6.5.6. 同等性

    • 6.5.6.1. 比较事物多种表述与定义的差别

  • 6.5.7. 可用性(Usability)
  • 6.5.8. 时间问题(Timing Issues)(超出时效性本身)​
  • 6.5.9. 灵活性(Flexibility)
  • 6.5.10. 置信度(Confidence)
  • 6.5.11. 价值(Value)

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

鼠扑

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表