ToB企服应用市场:ToB评测及商务社交产业平台

标题: 如何检测和减少大数据中的非常数据-根本讲授(看完学会处理非常数据) [打印本页]

作者: 钜形不锈钢水箱    时间: 2024-7-14 02:37
标题: 如何检测和减少大数据中的非常数据-根本讲授(看完学会处理非常数据)
前言

 很多基础设施和性能监控软件工具都提供内置非常检测。但它们经常产生太多误报。非常检测也可以表述为猜测问题。非常是意外事件,因此难以猜测。如果您构建的系统可以很好地猜测下一次测量的值,则可以将该猜测与实际测量举行比力。如果您的猜测与测量之间存在较大差异,则大概发生非常。颠末本人多次尝试发现了一些好的检测非常数据的方法和理论在这里分享给各人



统计阈值估计

时间序列值的猜测有很多种呆板学习方法。此中一些方法还自带了估计置信界限的工具,比如 ARIMA 或高斯过程。输出通常是高斯分布,它会告诉你实际测量值落在某些界限之间的大概性有多大。
一种常用的方法是 3 Sigma 规则规则。如果你的测量值与平均值相差超过 3 倍的标准差,那就以为这个测量值是非常的。但是就像下图展示的,你的猜测仍然有 0.1% 的概率是错的;而且测量值实际上是期望值。使用这种方法,你实际上可以建立非常值检测,但是统计上的非常值未必是非常的。

假设你有 100 个企业客户,活跃在 100 个国家。如果你想每分钟及时监测每个国家的呼唤,那你每分钟将有 10000 个数据点让非常检测算法监测。如果应用 3 个西格玛规则,你的模子仍然有 0.1% 的概率堕落。对于这个例子来说,这意味着平均每分钟会有 10 个误报,或者每天有 36000 个误报,这是不希望出现的效果。
固然,你可以把置信区间改成 4 个标准差,这样每天的误报率就只有 1000 多个。但是改变可以担当的标准差就等同于设定了假阳性率。它并没有捕获测量值(在这个例子中是响应时间)是否非常。
尽管在大多数情况下高斯分布非常得当这个预期输出,但是你可以选择差别的概率分布。但是即使你的新概率分布更得当数据,你根本上仍然在用雷同的方法来解决问题并设定非常检测模子的误报率。

非常分数

鲁棒随机切割森林(RRCF)是一种用于检测非常情况的方法,它主要基于树的构建。它的工作原理是对数据举行建模,当新的数据点输入模子时,它会检查树的结构,并确定是否必要调整以更好地拟合数据。如果模子对数据的猜测正确,则无需举行任何更改,但如果猜测出现明显偏差,则必要对树举行调整以更好地顺应数据。
RRCF 返回一个称为非常分数的指标,用于衡量模子为拟合数据所必须举行的更改水平。如果模子中的树的巨细为256(默认值),则非常分数可以在0到256之间的任何位置。较小的厘革会导致较低的分数,而较大的厘革则大概使分数达到最大值256。如果您希望将分数范围控制在0到100%之间,您可以简朴地将输出除以树的巨细。
一样平常来说,您可以设定一个阈值,例如树的厘革为50%。在实验中,这种方法通常体现精良。然而,我们留意到对于某些指标,我们仍然会得到太多的误报或者错过了相称多的非常事件。为了解决这个问题,我尝试使用移动平均方法举行改进,但问题仍然存在,我发现必须为每个指标单独设置一个阈值才能得到最佳性能。我们还发现,选择得当的树巨细对于每个指标都是一个挑战。对于更稳固的指标,模子通常不必要对整个树举行大量调整,而对于噪声较大的数据,则大概必要频繁调整以模拟数据中的预期厘革。

缩放最小最大阈值估计

为了解决阈值问题,我们采取了差别的方法。这个想法是你从已往的数据中了解什么是好的阈值。假设您有一个模子可以猜测您的指标,与实际指标的偏差大概如下图所示。如果您想将此推理应用于 RRCF 非常分数的输出,则可以忽略后面示例中的负值。
   

  蓝线代表已往的测量偏差。绿色数据点显示了我们尝试使用非常检测模子评估的新偏差。正如您在上图中看到的,这些绿点被以为是完全正常的。
在这六天内,您可以看到蓝线中有两个巨大的尖峰。如果我们假设非常现象每周发生的次数少于一次,则可以安全地假设已往一周的最小值和最大值阈值运行精良,如下图红色所示。
   

  如果我们测量与猜测测量值 0.75 的新偏差,我们会发现这种方法不会导致检测到非常。使用具有三个标准差的统计方法将得到紫色线(如上所示)和 0.4 的阈值。这不是期望的行为,它解释了为什么使用这种方法时会出现如此多的误报。
但这种方法也有其局限性。想象一下您测量到的偏差为 0.85。如下图所示,这会触发非常检测。
   

  为了避免这种情况,只需增加界限设置即可。在实践中,我们留意到将界限增加 50% - 或将界限乘以 1.5 - 给我们带来了最好的效果。原因是只有明显大于已往偏差的偏差才会触发非常。
下面的示例阐明了应用缩放阈值的效果。与猜测测量值 1.3 的偏差会触发非常,而低于 1.2 的所有偏差则不会。
   

  但如果你有 3 个数据点,而不是只有 1 个,那就明显更高了。
数据量大了怎么办

随着组织收集更大的数据集,并大概洞察业务活动,检测非常数据或这些数据集中的非常值对于发现效率低下、罕见事件、问题的根本原因或运营改进机会至关重要。但什么是非常以及为什么检测它很重要?
非常类型因企业和业务职能而异。非常检测仅仅意味着根据业务功能和目标定义“正常”模式和指标,并辨认不属于操作正常行为的数据点。例如,特定时期内网站或应用程序的流量高于平均水平大概表明存在网络安全威胁,在这种情况下,必要一个能够自动触发欺诈检测警报的系统。这也大概只是某个特定营销活动正在发挥作用的标志。非常现象本质上并不是坏事,但了解它们并利用数据将它们置于上下文中,对于理解和掩护您的业务至关重要。
从事数据科学工作的 IT 部门面临的挑战是如何理解不断扩展和不断厘革的数据点。我将先容如何利用人工智能支持的呆板学习技术通过三种差别的非常检测方法来检测非常行为:监督非常检测、无监督非常检测和半监督非常检测。

监督学习

监督学习是一种呆板学习技术,它利用已知的数据来训练模子,然后用这个模子来检测非常。在这个过程中,数据分析师会为数据点贴上“正常”或“非常”的标签,作为训练数据。通过使用这些标记好的数据来训练呆板学习模子,模子就能够学会根据给定的例子来辨认非常值。这种方法对于已知的非常检测很有资助,但是不能发现未知的非常或者猜测未来大概出现的问题。
监督学习中常用的呆板学习算法包括:
无监督学习

无监督学习是一种呆板学习技术,它可以处理没有被标记的数据,也就是说,不必要人为干预去告诉算法哪些数据是正常的,哪些是非常的。这种技术借鉴了人脑神经元的工作原理,通过深度学习和神经网络或自动编码器来发现数据中的模式,然后假设那些符合这些模式的数据是正常的。
这些技术对于发现未知的非常和减少手动筛选大量数据非常有用。然而,我们必要留意的是,由于这些技术是基于数据做出假设的,以是偶然间大概会错误地将正常数据标记为非常。
一些常见的无监督学习算法包括:

半监督学习

半监督学习是一种结合了监督学习和无监督学习的方法。它让我们能够利用无监督学习自动发现数据中的模式和特征,同时也能够通过人类的监督来引导和控制模子学习的过程。这种方法通常可以提高模子的猜测正确性。
此中一个常见的半监督学习方法是线性回归。这是一种用于猜测的呆板学习工具,它使用已知的因变量和自变量之间的关系。通过这些关系,可以根据已知的数据来猜测未来的效果。而且,即使只有部分数据被标记了,线性回归也可以使用未标记的数据来辅助猜测。

监督学习可用的场景

无监督学习可用的场景

半监督学习可用场景

总结(附赠AI检测非常数据工具)

以上这些就是资助各人提供一些检测非常数据的方法 和讲授 希望大奖能够点个赞 现在本人也根据大模子开发了非常检测工具 现在正在测试哦 评论区随机抽取赠送 开源非常检测大模子这些工具可以快速辨认非常情况,资助防备和修复问题。 利用人工智能和呆板学习,为所有团队成员提供具体且情境化的性能数据图,资助正确猜测并自动扫除错误。

文章参考Anomaly detection in machine learning: Finding outliers for optimization of business functions - IBM Blog
Dynamic threshold estimation for anomaly detection



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4