ToB企服应用市场:ToB评测及商务社交产业平台

标题: 读数据质量管理:数据可靠性与数据质量问题解决之道08扩展异常检测 [打印本页]

作者: 小小小幸运    时间: 2024-11-19 06:27
标题: 读数据质量管理:数据可靠性与数据质量问题解决之道08扩展异常检测

1. Python和机器学习扩展异常检测

1.1. 机器学习有助于大规模数据可观测性和数据监控
1.2. 构建一个完善的猜测器是不可能的,而且对任何风趣的猜测问题都是如此
1.3. 在假阳性和假阴性之间,大概在准确率和召回率之间,总要有所取舍
1.4. 真阳性
1.5. 假阳性
1.6. 真阴性
1.7. 假阴性
1.8. 异常检测是一项无监督使命
  1. >  1.8.2.2.1. 你无法得到预测结果和你应该预测的结果之间的差异
复制代码
1.9. 进步准确率和召回率
  1. >  1.9.1.4.1. 一个高精确率的模型是一个很少喊狼来了的模型
  2. >  1.9.1.4.2. 它发出警报时,你最好相信它
复制代码
  1. >  1.9.2.4.1. 有良好召回率的模型就像一只敬业的警犬
  2. >  1.9.2.4.2. 你可以放心,这个模型会捕获到所有真正的问题
复制代码
  1. >  1.9.3.3.1. 当β = 1时,该等式认为两个指标一样重要
  2. >  1.9.3.3.2. 当β > 1时,表示召回率比精确率更重要
  3.   >   1.9.3.3.2.1. 我更关心捕捉到所有的异常,而不是偶尔引起的错误警报
  4. >  1.9.3.3.3. 设置β<1,精确率会更重要
  5.   >   1.9.3.3.3.1. 我更关心我的警报是真实的,而不是捕捉每一个真正的问题
复制代码
  1. >  1.9.8.5.1. 不会希望在本地解决了一个错误(bug),但在生产环境中却无法应用
复制代码
1.10. 检测新鲜度事件
1.11. F分数
1.12. 模型的准确率紧张吗
  1. >  1.12.2.1.1. 它们可以更快地发出警报,从而发现更多真正的问题
复制代码
  1. >  1.12.2.2.1. 它们只对可能是真实的严重异常发出警报
复制代码
2. 异常检测算法

2.1. 近乎实时地检测问题
2.2. 向需要了解情况的人发出警报
2.3. 提供信息以帮助防止未来发生宕机
2.4. 规则定义
2.5. 自回归模型
2.6. 指数平滑
2.7. 聚类
2.8. 超参数调优
2.9. 集成模型框架
3. 数据质量监控器

3.1. 在为数据系统构建数据质量监控器时,紧张的是要区分,你是在使用来自数据堆栈的布局化整体数据,还是在使用现代数据湖生态系统中的复杂数据
3.2. 主要区别
3.3. 直接从数据湖中收集的元数据可能需要经过差别级别的预处置惩罚后,才气指望异常检测算法从它们当中得到有价值的信息
3.4. 类型可能需要强制(隐式)转换,模式可能需要对齐,而你可能会发现在运行检测器的训练使命之前,自己在数据中得到了全新的增强特征

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4