九天猎人 发表于 2024-11-18 08:12:22

读数据质量管理:数据可靠性与数据质量题目解决之道07非常检测

https://img2024.cnblogs.com/blog/3076680/202411/3076680-20241116224759336-884860027.png
1. 监控和非常检测

1.1. 在数据方面,全部明面上的测试和数据质量检查都不能完全保护你免受数据宕机的影响

[*]1.1.1. 宕机可能由于各种缘故起因而出如今管道内部和外部的各个阶段
[*]1.1.2. 这些缘故起因通常与数据本身无关
1.2. 要了解数据何时中断,最好的做法是依赖数据监控,特殊黑白常检测技术

[*]1.2.1. 在容量、新鲜度、分布和其他值没有到达预期阈值时被及时识别
1.3. 在知道有一个好的分类(或者说分类模子)之前,你必要知道什么是好的分类
2. 非常检测

2.1. 指的是识别出偏离常态的事件或观察结果
2.2. 对于很多数据团队来说,非常检测都被认为是一种“有则更好”而不是“必须要有”的东西
2.3. 团队必须同时接纳自动方式和被动方式来解决数据质量题目
2.4. 监控并发出关于数据可观测性支柱(新鲜度、容量、分布和模式)的警报
2.5. 要明白对于任何非常检测题目来说都没有完美的分类器
3. 已知的未知和未知的未知

3.1. 你可以预测的(已知的未知)和你无法预测的(未知的未知)

[*]3.1.1. 测试和断路器可以处理很多已知的未知
[*]3.1.2. 在涉及未知的未知时,监控和非常检测可以作为处理的基础
3.2. 已知的未知是你可以轻松预测的题目

[*]3.2.1. 空值
[*]3.2.2. 特有的新鲜度题目
[*]3.2.3. 由定期更新的系统触发的模式变更
[*]3.2.4. 可以在它们导致下游出现题现在把它们解决
3.3. 未知的未知指的是即使通过最全面的测试也无法解决的数据宕机

[*]3.3.1. 是整个数据管道中出现的题目
[*]3.3.2. 不仅仅是特定测试所涵盖的部分
[*]3.3.3. 关键字段中的分布非常导致Tableau仪表板出现故障
[*]3.3.4. 其他团队举行的JSON模式变更
[*]3.3.5. 对ETL(或反向ETL)的不测更改导致测试无法运行而不良数据未被发现
[*]3.3.6. 直到几周后才被注意到的不完整或陈旧数据,影响了关键营销指标
[*]3.3.7. 代码变更导致API停止网络为重要新产品提供的数据
[*]3.3.8. 随时间推移产生的数据漂移
[*]3.3.8.1. ETL作业通常不思量给定表中已经存在的数据
3.4. 利用监控和非常检测来识别并警告偏离给定数据管道汗青预期的数据行为。通过了解“好”数据的样子,就会更容易自动识别出“坏”数据
4. 构建非常检测的算法

4.1. 语言和工具

[*]4.1.1. SQLite和SQL
[*]4.1.2. Jupyter Notebooks
[*]4.1.3. Python
4.2. 新鲜度监控

[*]4.2.1. 可以为我们提供一个强有力的指标来说明关键数据资产上次更新的时间
[*]4.2.2. 如果一份按小时定期更新的陈诉突然看起来很陈旧,这类非常应该给我们提供了一个猛烈的信号,表明某些地方是禁绝确的或者可能是错误的
[*]4.2.3. SQL不存储元数据,以是为了在这种追溯环境中对新鲜度举行可视化,我们必要本身跟踪这些信息
[*]4.2.3.1. 到底多少天未更新数据就算太久没更新了呢?
4.3. 分布

[*]4.3.1. 评估数据的字段级分布康健状况
[*]4.3.2. 分布会告诉我们数据的全部盼望值,以及每个值出现的频率
[*]4.3.3. 在很多情况下,肯定水平的数据不完整是可以接受的,但如果10%的空值率酿成了90%,那我们就必须要知道到底发生了什么
[*]4.3.4. 假设观测值数据集来自符合数学规则的基准分布
[*]4.3.4.1. 样本分布
[*]4.3.4.2. 真实分布
[*]4.3.5. 中心极限定理
[*]4.3.5.1. 随着样本数目的增长,独立天生的随机样本的分布会接近于某个分布
[*]4.3.5.2. 如果在一个均值为μ、标准差为σ的给定数据会合有一个足够随机的样本,则样本均值的分布将近似正态分布
[*]4.3.5.3. 正态分布或高斯分布是统计课中大家都很熟悉的闻名钟形曲线
>4.3.5.3.1. 应用高斯分布可能会得到一种进行异常检测的初始方法

>4.3.5.3.2. 中心极限定理陈述了许多人都会忽略的一个数据生成过程中的关键特征:独立、随机的观测值在极限情况下产生正态分布

>4.3.5.3.3. 在商业智能数据中,观测值结果往往具有高度的相关性,并与其他变量相混淆

[*]4.3.5.4. “非常”和“有趣”的观测值之间是有区别的,这不能完全用纯粹的统计头脑来明白
>4.3.5.4.1. 时间序列包含重要的前后背景信息

>   4.3.5.4.1.1. 季节性是指时间序列在一定时间间隔内观察到可预测的波动趋势

>4.3.5.4.2. 并非所有的异常观测值都是有趣的,它们并不能帮助我们识别并纠正数据宕机

[*]4.3.6. 如果空值率的“峰值”代表着比之前均匀值的增长,则更应令人担心
[*]4.3.6.1. 当空值率突然下降时,可能不值得举行监控,而检测空值率是否增长的价值是显而易见的
4.4. 精良的非常检测肯定是数据可观测性困难的一部分,但这并不是全部

[*]4.4.1. 同样重要的还有前后的背景信息
5. 构建监控器

5.1. 模式变更和沿袭的非常检测

[*]5.1.1. 跟踪模式变更和沿袭可以让你前所未有地了解数据的康健状况和使用模式,提供有关何人、何事、何地、何因以及怎样使用你数据的关键前后上下文信息
[*]5.1.2. 实在在明白数据宕机对下游(通常也是现实天下)的影响时,模式和沿袭是两个最重要的数据可观测性支柱
5.2. 当对数据结构举行更改时,就会发生模式变更

[*]5.2.1. 模式变更可以指关于数据的任何事
[*]5.2.1.1. 添加新的API端点
[*]5.2.1.2. 假定已弃用的字段尚未被弃用
[*]5.2.1.3. 增长或减少列、行或整个表
[*]5.2.2. 有版本汗青
[*]5.2.2.1. 模式变更很容易悄悄地突然到临到我们身上
[*]5.2.3. 识别发出表明管道康健的信号的有用元数据
[*]5.2.3.1. 跟踪它,同时构建检测器来提醒我们潜在的题目
[*]5.2.3.2. 提供额外的表是跟踪模式的一种方法,但还有很多其他不同的方法
5.3. 对沿袭举行可视化

[*]5.3.1. 沿袭是数据可观测性5个支柱中最全面的一个
[*]5.3.2. 沿袭通过告诉我们哪些下游泉源可能受到影响以及哪些上游泉源可能是根本缘故起因这两件事来贯穿整个事件
[*]5.3.3. 沿袭信息可以资助我们确定事件的根本缘故起因并更快地解决它们
5.4. 调查数据非常

[*]5.4.1. 表明仅使用发生了数据非常的事实
[*]5.4.2. 表明使用了沿袭,根据表和字段之间的依赖关系,将事件置于整个前后上下文中并确定了题目的根本缘故起因

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 读数据质量管理:数据可靠性与数据质量题目解决之道07非常检测