数据仓库与分析如何检测和减少大数据中的非常数据-根本讲授(看完学会处理非常数据)

钜形不锈钢水箱 发表于 2024-7-14 02:37:05

如何检测和减少大数据中的非常数据-根本讲授(看完学会处理非常数据)

前言

很多基础设施和性能监控软件工具都提供内置非常检测。但它们经常产生太多误报。非常检测也可以表述为猜测问题。非常是意外事件，因此难以猜测。如果您构建的系统可以很好地猜测下一次测量的值，则可以将该猜测与实际测量举行比力。如果您的猜测与测量之间存在较大差异，则大概发生非常。颠末本人多次尝试发现了一些好的检测非常数据的方法和理论在这里分享给各人

统计阈值估计

时间序列值的猜测有很多种呆板学习方法。此中一些方法还自带了估计置信界限的工具，比如 ARIMA 或高斯过程。输出通常是高斯分布，它会告诉你实际测量值落在某些界限之间的大概性有多大。
一种常用的方法是 3 Sigma 规则规则。如果你的测量值与平均值相差超过 3 倍的标准差，那就以为这个测量值是非常的。但是就像下图展示的，你的猜测仍然有 0.1% 的概率是错的；而且测量值实际上是期望值。使用这种方法，你实际上可以建立非常值检测，但是统计上的非常值未必是非常的。
https://img-blog.csdnimg.cn/direct/2999b5d67aa64ea398ee3d65335046d6.png
假设你有 100 个企业客户，活跃在 100 个国家。如果你想每分钟及时监测每个国家的呼唤，那你每分钟将有 10000 个数据点让非常检测算法监测。如果应用 3 个西格玛规则，你的模子仍然有 0.1% 的概率堕落。对于这个例子来说，这意味着平均每分钟会有 10 个误报，或者每天有 36000 个误报，这是不希望出现的效果。
固然，你可以把置信区间改成 4 个标准差，这样每天的误报率就只有 1000 多个。但是改变可以担当的标准差就等同于设定了假阳性率。它并没有捕获测量值（在这个例子中是响应时间）是否非常。
尽管在大多数情况下高斯分布非常得当这个预期输出，但是你可以选择差别的概率分布。但是即使你的新概率分布更得当数据，你根本上仍然在用雷同的方法来解决问题并设定非常检测模子的误报率。

非常分数

鲁棒随机切割森林（RRCF）是一种用于检测非常情况的方法，它主要基于树的构建。它的工作原理是对数据举行建模，当新的数据点输入模子时，它会检查树的结构，并确定是否必要调整以更好地拟合数据。如果模子对数据的猜测正确，则无需举行任何更改，但如果猜测出现明显偏差，则必要对树举行调整以更好地顺应数据。
RRCF 返回一个称为非常分数的指标，用于衡量模子为拟合数据所必须举行的更改水平。如果模子中的树的巨细为256（默认值），则非常分数可以在0到256之间的任何位置。较小的厘革会导致较低的分数，而较大的厘革则大概使分数达到最大值256。如果您希望将分数范围控制在0到100%之间，您可以简朴地将输出除以树的巨细。
一样平常来说，您可以设定一个阈值，例如树的厘革为50%。在实验中，这种方法通常体现精良。然而，我们留意到对于某些指标，我们仍然会得到太多的误报或者错过了相称多的非常事件。为了解决这个问题，我尝试使用移动平均方法举行改进，但问题仍然存在，我发现必须为每个指标单独设置一个阈值才能得到最佳性能。我们还发现，选择得当的树巨细对于每个指标都是一个挑战。对于更稳固的指标，模子通常不必要对整个树举行大量调整，而对于噪声较大的数据，则大概必要频繁调整以模拟数据中的预期厘革。

缩放最小最大阈值估计

为了解决阈值问题，我们采取了差别的方法。这个想法是你从已往的数据中了解什么是好的阈值。假设您有一个模子可以猜测您的指标，与实际指标的偏差大概如下图所示。如果您想将此推理应用于 RRCF 非常分数的输出，则可以忽略后面示例中的负值。
https://img-blog.csdnimg.cn/img_convert/b0173b82e100730ad3a2b78773a10c7f.png
蓝线代表已往的测量偏差。绿色数据点显示了我们尝试使用非常检测模子评估的新偏差。正如您在上图中看到的，这些绿点被以为是完全正常的。
在这六天内，您可以看到蓝线中有两个巨大的尖峰。如果我们假设非常现象每周发生的次数少于一次，则可以安全地假设已往一周的最小值和最大值阈值运行精良，如下图红色所示。
https://img-blog.csdnimg.cn/img_convert/e7ddfdbe671f3a7fc1b861351d145f30.png
如果我们测量与猜测测量值 0.75 的新偏差，我们会发现这种方法不会导致检测到非常。使用具有三个标准差的统计方法将得到紫色线（如上所示）和 0.4 的阈值。这不是期望的行为，它解释了为什么使用这种方法时会出现如此多的误报。
但这种方法也有其局限性。想象一下您测量到的偏差为 0.85。如下图所示，这会触发非常检测。
https://img-blog.csdnimg.cn/img_convert/a059531d34c626e0e102cf65e098d8c5.png
为了避免这种情况，只需增加界限设置即可。在实践中，我们留意到将界限增加 50% - 或将界限乘以 1.5 - 给我们带来了最好的效果。原因是只有明显大于已往偏差的偏差才会触发非常。
下面的示例阐明了应用缩放阈值的效果。与猜测测量值 1.3 的偏差会触发非常，而低于 1.2 的所有偏差则不会。
https://img-blog.csdnimg.cn/img_convert/2252b27aede3d4d8ebc4c2e84bd83f1d.png
但如果你有 3 个数据点，而不是只有 1 个，那就明显更高了。
数据量大了怎么办

随着组织收集更大的数据集，并大概洞察业务活动，检测非常数据或这些数据集中的非常值对于发现效率低下、罕见事件、问题的根本原因或运营改进机会至关重要。但什么是非常以及为什么检测它很重要？
非常类型因企业和业务职能而异。非常检测仅仅意味着根据业务功能和目标定义“正常”模式和指标，并辨认不属于操作正常行为的数据点。例如，特定时期内网站或应用程序的流量高于平均水平大概表明存在网络安全威胁，在这种情况下，必要一个能够自动触发欺诈检测警报的系统。这也大概只是某个特定营销活动正在发挥作用的标志。非常现象本质上并不是坏事，但了解它们并利用数据将它们置于上下文中，对于理解和掩护您的业务至关重要。
从事数据科学工作的 IT 部门面临的挑战是如何理解不断扩展和不断厘革的数据点。我将先容如何利用人工智能支持的呆板学习技术通过三种差别的非常检测方法来检测非常行为：监督非常检测、无监督非常检测和半监督非常检测。

监督学习

监督学习是一种呆板学习技术，它利用已知的数据来训练模子，然后用这个模子来检测非常。在这个过程中，数据分析师会为数据点贴上“正常”或“非常”的标签，作为训练数据。通过使用这些标记好的数据来训练呆板学习模子，模子就能够学会根据给定的例子来辨认非常值。这种方法对于已知的非常检测很有资助，但是不能发现未知的非常或者猜测未来大概出现的问题。
监督学习中常用的呆板学习算法包括：

[*] K 最近邻 (KNN) 算法：这种算法是一种基于密度的分类器或者回归建模工具，用来举行非常检测。它的工作原理是假设相似的数据点会在彼此附近。如果一个数据点与其他数据点的距离较远，那么它大概被以为是非常的。
[*] 局部离群因子（LOF）：LOF 和 KNN 雷同，都是基于密度的算法。差别之处在于，KNN 是根据最靠近的数据点做出判断，而 LOF 则是根据相距最远的数据点来做出结论。
无监督学习

无监督学习是一种呆板学习技术，它可以处理没有被标记的数据，也就是说，不必要人为干预去告诉算法哪些数据是正常的，哪些是非常的。这种技术借鉴了人脑神经元的工作原理，通过深度学习和神经网络或自动编码器来发现数据中的模式，然后假设那些符合这些模式的数据是正常的。
这些技术对于发现未知的非常和减少手动筛选大量数据非常有用。然而，我们必要留意的是，由于这些技术是基于数据做出假设的，以是偶然间大概会错误地将正常数据标记为非常。
一些常见的无监督学习算法包括：

[*] K-means：这是一种用于聚类数据的算法，它通过数学计算来把相似的数据点放到一起组成簇。通过分析这些簇，我们可以找到数据中的模式，并推断出哪些数据大概是非常的。
[*] 隔离森林：这是一种用于非常检测的算法，它使用无监督数据。它通过创建多个决策树来隔离非常点。通过对数据点举行分析，算法会给每个数据点一个非常分数，分数低于0.5的通常被以为是正常的，而分数高于0.5的更有大概是非常的。
[*] 支持向量机（SVM）：这是一种非常检测技术，它使用训练数据来定义正常范围。如果一个数据点在界限内部，它就被以为是正常的；而在界限外部的则被标记为非常。

半监督学习

半监督学习是一种结合了监督学习和无监督学习的方法。它让我们能够利用无监督学习自动发现数据中的模式和特征，同时也能够通过人类的监督来引导和控制模子学习的过程。这种方法通常可以提高模子的猜测正确性。
此中一个常见的半监督学习方法是线性回归。这是一种用于猜测的呆板学习工具，它使用已知的因变量和自变量之间的关系。通过这些关系，可以根据已知的数据来猜测未来的效果。而且，即使只有部分数据被标记了，线性回归也可以使用未标记的数据来辅助猜测。

监督学习可用的场景

[*] 零售业：利用上一年的贩卖数据，可以猜测未来的贩卖目标，并为贩卖员工设定绩效目标。通过分析贩卖数据，可以深入了解产物的受接待水平、营销活动的效果以及季节性因素对贩卖的影响。
[*] 天气预报：监督学习算法可以利用历史气象数据来猜测未来的天气模式。通过分析与气压、温度和风速等因素相关的数据，气象学家可以创建更正确的天气预报，更好地了解天气厘革的规律和趋势。
无监督学习可用的场景

[*] 入侵侦测系统：这些系统可以以软件或硬件形式存在，用于监视网络流量是否存在安全违规或恶意活动的迹象。利用无监督学习算法，可以及时检测网络上的潜伏攻击，掩护用户信息和系统功能。这些算法可以根据时间序列数据创建正常网络行为的模子，并在发现网络流量的峰值或非常模式时标记为潜伏的安全毛病，以举行进一步的检查。
[*] 制造业：在制造业中，确保装备的正常运行对于产物质量和供应链的优化至关重要。无监督学习算法可以应用于猜测性维护，通过从连接到装备的传感器获取未标记的数据，并猜测潜伏的故障或故障。这使得公司能够在严重故障发生之前举行维修，从而减少呆板停机时间，提高生产效率。
半监督学习可用场景

[*] 医疗范畴：医疗专业职员可以使用呆板学习算法来处理包含已知疾病或病症的图像。然而，由于每个患者的情况都大概差别，因此不大概标记所有潜伏的医疗问题。通过半监督学习，这些算法可以处理患者信息，并在未标记的图像中举行推断，标记出潜伏的医疗问题，为大夫提供更全面的诊断支持。
[*] 欺诈辨认：猜测算法可以利用半监督学习来检测欺诈行为。虽然某些用户的信用卡活动大概已被标记为欺诈，但对于很多买卖业务来说，它们并没有被明确标记。通过结合标记和未标记的数据，算法可以辨认出不平常的买卖业务模式，从而资助金融机构和支付平台及时发现潜伏的欺诈行为。
总结(附赠AI检测非常数据工具)

以上这些就是资助各人提供一些检测非常数据的方法和讲授希望大奖能够点个赞现在本人也根据大模子开发了非常检测工具现在正在测试哦评论区随机抽取赠送开源非常检测大模子这些工具可以快速辨认非常情况，资助防备和修复问题。利用人工智能和呆板学习，为所有团队成员提供具体且情境化的性能数据图，资助正确猜测并自动扫除错误。

文章参考Anomaly detection in machine learning: Finding outliers for optimization of business functions - IBM Blog
Dynamic threshold estimation for anomaly detection

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

如何检测和减少大数据中的非常数据-根本讲授(看完学会处理非常数据)