千千梦丶琪 发表于 2024-11-29 08:44:53

读数据质量管理:数据可靠性与数据质量问题解决之道18数据发现

https://img2024.cnblogs.com/blog/3076680/202411/3076680-20241127150735063-779798343.png
1. 让元数据为业务服务

1.1. 在过去十多年中,数据团队越来越擅长收集大量的数据
1.2. 公司如今正在收集越来越多关于其数据的数据,也就是元数据

[*]1.2.1. dbt等ETL解决方案让跟踪和使用元数据变得容易,而云服务提供商则使栈中数据解决方案之间的元数据的互操作性变得更加无缝
[*]1.2.2. 没有与之对应的配景信息的数据只不外是一堆数字一样,元数据本身并没有效,它只是关于其他信息的更多信息
1.3. 元数据的真正力气在于我们使用它的地点、时间和方式

[*]1.3.1. 如何将它应用于我们正在试图解决的特定且亟须解决的问题
2. 通过数据发现开释元数据的代价

2.1. 数据仓库和数据湖的考量

[*]2.1.1. 在过去几年中,云数据仓库和数据湖已成为现代数据栈的必备要素
[*]2.1.2. 数据发现工具(或联合目次)能够提供帮助来确保你的数据环境不会变成数据沼泽
[*]2.1.3. 数据湖具有无限的灵活性和可定制性,来支持广泛的用例,但随着这种更强的敏捷性而来的是与数据组织和管理相关的一系列其他问题
[*]2.1.4. 随着数据运营的成熟和数据管道变得越来越复杂,传统的数据目次往往达不到你所期望的数据发现工具答复这些问题的方式
2.2. 数据目次可能沉没在数据湖甚至数据网格中

[*]2.2.1. 数据目次经常被用作元数据的清单,并提供有关数据康健状态、可访问性和位置的信息
[*]2.2.2. 帮助数据团队答复有关在那里查找数据、数据代表了什么以及要如何使用数据的问题
[*]2.2.3. 如果我们不知道这些数据是如何组织的,那么我们所有最好的计划(或管道)都是徒劳的
[*]2.2.4. 从历史上看,很多公司都使用数据目次来加强数据质量和数据管理尺度,因为他们通常依赖于数据团队手动输入和更新目次信息以跟踪数据资产的演变环境
[*]2.2.5. 在数据湖中,数据是分布式的,因此很难记录数据在其生命周期过程中的演变环境
[*]2.2.6. 存储在传统数据目次中的数据也难以扩展和演变,以满足分布式数据架构(如数据网格)的需求
2.3. 从传统的数据目次过渡到现代的数据发现

[*]2.3.1. 随着时间的推移,了解差别数据资产之间的关系至关重要,但这中间往往缺乏传统数据目次的维度
[*]2.3.2. 公司仍必要知道他们的数据存放在那里以及谁可以访问它,并能够评估其整体康健状态
[*]2.3.3. 固然很多数据目次都有以用户界面为中心的工作流,但数据工程师必要拥有以编程方式与数据目次进行交互的灵活性
[*]2.3.4. 数据可以通过多个入口点进入数据湖,而工程师必要一个能够适应该环境并说明每个入口点的数据目次
[*]2.3.5. 与数据在输入前进行清洗和处理的数据仓库差别,数据湖在不对端到端康健状态做任何假设的环境下就接收了原始数据

[*]2.3.5.1. 如果没有数据发现工具和数据相沿,那么数据湖中的故障可能会变得混乱且难以诊断
[*]2.3.5.2. 在数据湖中,可以通过多种方式与数据进行交互,而数据目次必须能够提供对正在使用的内容和未使用内容的理解

[*]2.3.6. 数据发现,换句话说,联合数据目次,是一莳植根于Dehghani数据网格模子中提出的分布式面向领域架构的新方法
[*]2.3.7. 填补了传统数据目次不足的空白

[*]2.3.7.1. 跨数据湖的自动化扩展
2.3.7.1.1. 使用呆板学习,数据发现工具来自动跟踪表级和字段级相沿,映射上游和下游的依赖关系

[*]2.3.7.2. 提供对数据康健状态的及时可见性
2.3.7.2.1. 数据发现工具提供对数据当前状态的及时可见性,而不是其“编目”或理想状态

[*]2.3.7.3. 利用数据相沿了解数据的业务影响
2.3.7.3.1. 数据发现工具的灵活性和动态性让其成为将数据相沿带入数据湖的理想载体,让你能够在正确的时间获得正确的信息,并在诸多可能的输入和输出之间创建联系

[*]2.3.7.4. 支持跨领域自助式服务的数据发现
2.3.7.4.1. 数据发现工具还支持自助式服务,让人们无须专门的支持团队即可轻松利用和理解他们的数据

[*]2.3.7.5. 确保跨数据湖的管理和优化
2.3.7.5.1. 现代数据发现工具让公司不仅可以了解在数据生命周期中正在使用、消费、存储和弃用哪些数据,还可以了解这些过程是如何进行的


[*]2.3.8. 数据发现工具还可以让利益相关方轻松识别出最重要的数据资产(也就是经常被查询的数据)​,以及那些未被使用的数据资产

[*]2.3.8.1. 一些最好的数据目次越来越多地采用分布式特定领域的数据发现,为团队提供了在数据生命周期的各个阶段完全信托并利用数据所需的可见性

[*]2.3.9. 如果你不信托数据,那么无论数据多具有“可发现性”也没什么用

[*]2.3.9.1. 尽早确定数据质量在公司数据之旅中的优先级会很有帮助,以避免不必要且带来贫困的数据宕机

3. 决定何时开始处理公司的数据质量问题

3.1. 更关心要怎样才能推动采集数据,让这个事启动并运行起来
3.2. 构建数据平台是一个多阶段的过程,而数据团队必须兼顾数十个相互竞争的优先事项
3.3. 如果公司不使用或不信托你的数据,那么你为数据平台统治而制定的最佳计划就成为白日梦
3.4. 七个领先指标

[*]3.4.1. 在最近迁移到云端

[*]3.4.1.1. 无论出于何种原因进行迁移,你都必须在保持速度的同时创建对数据平台的信托
[*]3.4.1.2. 应该花更多的时间来构建数据管道,而不是把时间用在编写测试以防止出现问题上

[*]3.4.2. 数据栈随着更多的数据源、更多的表和更高的复杂性而扩展

[*]3.4.2.1. 数据产品的规模不是投资数据质量的唯一尺度,但的确是一个重要因素
[*]3.4.2.2. 投资数据可观测性前应该拥有多少数据源、数据管道和数据表方面并没有硬性规定,但一个较好的引导原则是拥有50张以上的表
[*]3.4.2.3. 重要的考虑因素是数据栈增长的速度

[*]3.4.3. 数据团队正在扩充

[*]3.4.3.1. 雇用更多的数据专家,并将现代工具应用到你的数据栈中
[*]3.4.3.2. 技能债将随时间慢慢积累,而你的数据团队将投入大量时间来清洗数据问题

[*]3.4.4. 团队至少耗费了30%的时间来解决数据质量问题

[*]3.4.4.1. 数据工程师耗费了太多的名贵时间来修复问题而不是进行创新

[*]3.4.5. 团队拥有比一年前更多的数据消费者

[*]3.4.5.1. 数据为你的招聘决议、产品功能和预测分析提供了支持
[*]3.4.5.2. 快速增长会导致业务相关方对数据的依赖水平增加,数据需求变得更加多样化,而最终导致必要更多的数据
[*]3.4.5.3. 更多的数据也会带来更大的责任,因为不良数据进入你的数据生态体系的可能性也增加了
[*]3.4.5.4. 越是数据驱动型的组织反而越会有更多的数据消费者来发现数据中出现的任何错误

[*]3.4.6. 公司正在转向自助式服务分析模子

[*]3.4.6.1. 公司正在转向自助式服务分析模子,以便为数据工程师腾出时间,并允许每个业务用户直接访问数据并与之进行交互
[*]3.4.6.2. 到最后如果你的最终用户不信托数据,那么转向自助式服务分析模子的目的就会落空
[*]3.4.6.3. 随着数据越来越成为数据驱动型组织日常运营不可或缺的一部分,对可靠数据的需求只会增加
[*]3.4.6.4. 两种类型的数据质量问题
3.4.6.4.1. 你可以预测的(已知的未知)
3.4.6.4.2. 你不能预测的(未知的未知)


[*]3.4.7. 数据是客户代价主张的关键部分

[*]3.4.7.1. 每个应用程序都将很快成为一个数据应用程序
[*]3.4.7.2. 当没有优先考虑数据质量时,数据团队和你的客户就会遭受丧失

3.5. 数据质量源于信托

[*]3.5.1. 组织必要信托他们的数据来为利益相关方提供干净可靠的数据
[*]3.5.2. 名贵的工程时间就会被浪费在救火数据宕机上,你为成为数据驱动型公司所做出的努力也会随着时间的推移而受阻,业务用户也将失去对数据的信托

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 读数据质量管理:数据可靠性与数据质量问题解决之道18数据发现