ToB企服应用市场:ToB评测及商务社交产业平台
标题:
二十、【呆板学习】【非监督学习】- 均值漂移 (Mean Shift)
[打印本页]
作者:
勿忘初心做自己
时间:
2024-7-27 10:14
标题:
二十、【呆板学习】【非监督学习】- 均值漂移 (Mean Shift)
系列文章目录
第一章 【呆板学习】初识呆板学习
第二章 【呆板学习】【监督学习】- 逻辑回归算法 (Logistic Regression)
第三章 【呆板学习】【监督学习】- 支持向量机 (SVM)
第四章【呆板学习】【监督学习】- K-近邻算法 (K-NN)
第五章【呆板学习】【监督学习】- 决策树 (Decision Trees)
第六章【呆板学习】【监督学习】- 梯度提升机 (Gradient Boosting Machine, GBM)
第七章 【呆板学习】【监督学习】-神经网络 (Neural Networks)
第八章【呆板学习】【监督学习】-卷积神经网络 (CNN)
第九章【呆板学习】【监督学习】-循环神经网络 (RNN)
第十章【呆板学习】【监督学习】-线性回归
第十一章【呆板学习】【监督学习】-局部加权线性回归 (Locally Weighted Linear Regression, LWLR)
第十二章【呆板学习】【监督学习】- 岭回归 (Ridge Regression)
十三、【呆板学习】【监督学习】- Lasso回归 (Least Absolute Shrinkage and Selection Operator)
十四、【呆板学习】【监督学习】- 弹性网回归 (Elastic Net Regression)
十五、【呆板学习】【监督学习】- 神经网络回归
十六、【呆板学习】【监督学习】- 支持向量回归 (SVR)
十七、【呆板学习】【非监督学习】- K-均值 (K-Means)
十八、【呆板学习】【非监督学习】- DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
目录
系列文章目录
一、非监督学习
(一)、定义
(二)、训练流程
(三)、基本算法分类
二、均值漂移 (Mean Shift)
(一)、定义
(二)、基本概念
(三)、训练过程
1. 初始化
2. 计算偏移向量
3. 更新点的位置
4. 迭代
5. 应用于所有数据点
6. 形成聚类
7. 聚类后处理
8.留意事项
(四)、特点
(五)、实用场景
(六)、扩展
三、总结
一、非监督学习
(一)、定义
非监督学习是一种呆板学习方法,它处理的是没有标签的数据集。与监督学习差别,非监督学习算法不需要知道数据的正确分类或目标值。它的目标是通过数据内部的结构和模式来推断出有意义的信息,如数据的分布、聚类、降维或非常检测等。
(二)、训练流程
非监督学习的训练流程通常包含以下几个步骤:
数据准备
:收集和预处理数据,可能包罗数据清洗、缺失值处理、数据标准化或归一化等。
模型选择
:根据题目的性质选择合适的非监督学习算法。
参数初始化
:初始化模型的参数,这一步对于某些算法至关重要,如K-means聚类。
模型训练
:使用无标签数据训练模型,探求数据中的结构或模式。这一过程可能涉及到迭代优化,直到满足某个制止准则,如收敛或达到预定的迭代次数。
结果评估
:评估模型的结果,这通常比监督学习更具有挑战性,由于没有明确的“正确答案”。评估可能基于内在指标(如聚类的紧凑度和分离度)或外在指标(如与已知分类的比力)。
应用模型
:使用训练好的模型对新数据举行分析或预测,如对新数据举行聚类或降维。
(三)、基本算法分类
非监督学习算法可以大致分为以下几类:
聚类算法
:用于将数据点分组到差别的簇中,常见的算法有K-means、条理聚类、DBSCAN、Gaussian Mixture Models等。
降维算法
:用于淘汰数据的维度,同时尽可能保存数据的结构信息,常见的算法有PCA(主身分分析)、t-SNE(t-分布随机邻域嵌入)、自编码器等。
关联规则学习
:用于发现数据集中项之间的关系,如Apriori算法和Eclat算法。
非常检测算法
:用于识别数据集中的非常点或离群点,如Isolation Forest、Local Outlier Factor等。
自构造映射(SOM)
:一种神经网络模型,用于数据可视化和聚类,可以将高维数据映射到低维空间中。
生成模型
:如变分自编码器(VAE)和生成对抗网络(GAN),它们可以生成类似训练数据的新样本。
非监督学习在很多场景中都有广泛应用,如客户细分、图像识别、自然语言处理、生物信息学和保举体系等。由于其机动性和在处理大量未标注数据时的上风,非监督学习是数据科学和人工智能领域的重要组成部分。
二、均值漂移 (Mean Shift)
(一)、定义
均值漂移算法是一种无监督学习方法,最初由 Fukunaga 和 Hostetler 在 1975 年提出。它是一种基于密度的聚类算法,用于估计数据的模式(局部最大值),而且不需要事先指定聚类的数量。均值漂移算法在图像处理、计算机视觉、目标跟踪和数据发掘等领域有着广泛的应用。
(二)、基本概念
均值漂移算法的核心思想是使用数据点的密度来确定聚类中央。算法假设数据点在高密度地区附近聚集,而且这些高密度地区的中央代表了潜在的聚类中央。算法通过迭代地将数据点移动到其邻域内其他点的平均位置(质心)来实现这一点,从而徐徐“漂移”至高密度地区的中央。
(三)、训练过程
均值漂移算法是一种迭代的、基于密度的聚类方法,它能够主动检测数据的高密度地区并确定这些地区的中央,即模式。下面是均值漂移算法的详细训练步骤:
1. 初始化
选择一个数据点作为起始点,可以是数据集中的恣意点,也可以是随机选择的点。
确定带宽参数(bandwidth)h,这是一个核函数的尺度参数,决定了思量邻域的范围。带宽的选择对算法的性能有很大影响,较小的带宽可能会导致过拟合,较大的带宽可能会忽略数据的细节。
2. 计算偏移向量
对于选定的起始点,计算其邻域内所有点的加权平均位置,权重由核函数决定。常用的核函数是高斯核函数:
此中
欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)
Powered by Discuz! X3.4