IT评测·应用市场-qidao123.com

标题: 读数据质量管理:数据可靠性与数据质量题目解决之道07非常检测 [打印本页]

作者: 九天猎人    时间: 2024-11-18 08:12
标题: 读数据质量管理:数据可靠性与数据质量题目解决之道07非常检测

1. 监控和非常检测

1.1. 在数据方面,全部明面上的测试和数据质量检查都不能完全保护你免受数据宕机的影响
1.2. 要了解数据何时中断,最好的做法是依赖数据监控,特殊黑白常检测技术
1.3. 在知道有一个好的分类(或者说分类模子)之前,你必要知道什么是好的分类
2. 非常检测

2.1. 指的是识别出偏离常态的事件或观察结果
2.2. 对于很多数据团队来说,非常检测都被认为是一种“有则更好”而不是“必须要有”的东西
2.3. 团队必须同时接纳自动方式和被动方式来解决数据质量题目
2.4. 监控并发出关于数据可观测性支柱(新鲜度、容量、分布和模式)的警报
2.5. 要明白对于任何非常检测题目来说都没有完美的分类器
3. 已知的未知和未知的未知

3.1. 你可以预测的(已知的未知)和你无法预测的(未知的未知)
3.2. 已知的未知是你可以轻松预测的题目
3.3. 未知的未知指的是即使通过最全面的测试也无法解决的数据宕机
3.4. 利用监控和非常检测来识别并警告偏离给定数据管道汗青预期的数据行为。通过了解“好”数据的样子,就会更容易自动识别出“坏”数据
4. 构建非常检测的算法

4.1. 语言和工具
4.2. 新鲜度监控
4.3. 分布
  1. >  4.3.5.3.1. 应用高斯分布可能会得到一种进行异常检测的初始方法
  2. >  4.3.5.3.2. 中心极限定理陈述了许多人都会忽略的一个数据生成过程中的关键特征:独立、随机的观测值在极限情况下产生正态分布
  3. >  4.3.5.3.3. 在商业智能数据中,观测值结果往往具有高度的相关性,并与其他变量相混淆
复制代码
  1. >  4.3.5.4.1. 时间序列包含重要的前后背景信息
  2.   >   4.3.5.4.1.1. 季节性是指时间序列在一定时间间隔内观察到可预测的波动趋势
  3. >  4.3.5.4.2. 并非所有的异常观测值都是有趣的,它们并不能帮助我们识别并纠正数据宕机
复制代码
4.4. 精良的非常检测肯定是数据可观测性困难的一部分,但这并不是全部
5. 构建监控器

5.1. 模式变更和沿袭的非常检测
5.2. 当对数据结构举行更改时,就会发生模式变更
5.3. 对沿袭举行可视化
5.4. 调查数据非常

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) Powered by Discuz! X3.4