《呆板学习》支持向量机

[复制链接]
发表于 2024-12-23 12:47:40 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
目次
结构风险(Structural Risk)和履历风险(Empirical Risk)
履历风险(Empirical Risk): 
结构风险(Structural Risk): 
L0范数: L0范数是指向量中非零元素的个数。它通常用于特征选择,由于它可以迫使模型选择最少的非零特征。
解得希罕性
希罕性
SVM的希罕性
为什么线性SVM的解具有希罕性


结构风险(Structural Risk)和履历风险(Empirical Risk)

在呆板学习和统计学习理论中,结构风险(Structural Risk)和履历风险(Empirical Risk)是评估模型性能的两个重要概念。
履历风险(Empirical Risk): 

履历风险是指模型在训练数据集上的平均丧失。它衡量的是模型在训练数据上的体现,通常通过丧失函数(如平方丧失、交叉熵丧失等)来盘算。履历风险越小,表现模型在训练数据上的拟合程度越高。公式可以表现为:

Remp​(f)=N1​i=1∑N​L(yi​,f(xi​))
此中,�(��,�(��))L(yi​,f(xi​)) 表现单个样本的丧失,�N 是训练样本的数目,(��,��)(xi​,yi​) 是第 �i 个训练样本及其标签。
结构风险(Structural Risk): 

结构风险是在履历风险的基础上加入了一个正则化项(Regularization Term),用来衡量模型的复杂度。它考虑了模型的泛化本领,旨在防止模型过拟合。结构风险可以表现为:

Rstruct​(f)=Remp​(f)+λJ(f)
这里,����(�)Remp​(f) 是履历风险,�(�)J(f) 是模型的复杂度(例如,可以是模型权重向量的范数),而 �λ 是正则化参数,用于平衡履历风险和模型复杂度。
结构风险最小化是统计学习中的一个重要原则,它要求在包管模型复杂度适中的前提下,最小化履历风险,从而使模型在未知数据上也能有较好的体现。这种方法可以提高模型的泛化本领,避免在训练集上太过拟合而在测试集上体现不佳。
在呆板学习和优化题目中,L0、L1、L2和L∞范数是常用的几种范数,它们用于衡量向量或矩阵的某些特性,通常用于正则化以防止过拟合。以下是这些范数的界说:

  • L0范数: L0范数是指向量中非零元素的个数。它通常用于特征选择,由于它可以迫使模型选择最少的非零特征。

∥�∥0=Number of non-zero elements in �∥x∥0​=Number of non-zero elements in x

  • L1范数(曼哈顿范数): L1范数是指向量中全部元素的绝对值之和。它常用于希罕编码和压缩感知,由于它可以促进希罕解,即使得许多系数为零。

∥�∥1=∑�=1�∣��∣∥x∥1​=i=1∑n​∣xi​∣

  • L2范数(欧几里得范数): L2范数是指向量中全部元素的平方和的平方根。它是欧几里得空间中两点之间距离的度量。在呆板学习中,L2范数常用于正则化,以防止过拟合。

∥�∥2=∑�=1���2∥x∥2​=i=1∑n​xi2​​

  • L∞范数(切比雪夫范数): L∞范数是指向量中全部元素绝对值中的最大值。它衡量的是向量的最大偏差。

∥�∥∞=max⁡�∣��∣∥x∥∞​=imax​∣xi​∣
在现实应用中,这些范数的选择取决于具体的题目和需求。例如:


  • L0范数通常不直接用于优化题目,由于它不是一个凸函数,因此难以优化。
  • L1范数在求解题目时更容易得到希罕解,因此实用于特征选择。
  • L2范数在优化题目中更容易处理,由于它是一个凸函数,并且有助于防止过拟合。
  • L∞范数在处理具有鲁棒性要求的优化题目时非常有用,由于它限定了最大偏差。
l0  l1都致力于让非零元小。
解得希罕性

支持向量机(Support Vector Machine, SVM)的解在某些情况下可以具有希罕性,这重要取决于所利用的核函数和正则化参数。
希罕性

希罕性指的是在解中只有少数几个参数是非零的,而大多数参数都是零。在呆板学习中,希罕性通常是一个受欢迎的特性,由于它意味着模型可以只用少数几个重要的特征来做出预测,如许可以提高解释性、淘汰盘算量,并且在某些情况下还能提高泛化本领。
SVM的希罕性


  • 线性SVM

    • 当数据是线性可分的,大概利用线性核时,SVM的解通常具有希罕性。这是由于线性SVM的目的是找到一个最大间隔的决议边界,这个边界只与支持向量(那些最靠近决议边界的数据点)有关,而与其他数据点无关。
    • 在线性SVM中,解的希罕性体现在最终的模型权重中:只有支持向量的贡献非零,而其他数据点的拉格朗日乘子(或权重)将为零。

  • 非线性SVM

    • 当利用非线性核(如多项式核或径向基函数核)时,SVM的解大概不具有希罕性。这是由于非线性核可以创建非常复杂的决议边界,这些边界大概涉及全部数据点,从而导致全部拉格朗日乘子都不为零。
    • 只管云云,通过适当地选择正则化参数C(惩罚项),可以鼓励模型寻找一个更希罕的解,即尽大概淘汰非零拉格朗日乘子的数目。

为什么线性SVM的解具有希罕性

线性SVM通过以下优化题目来找到最大间隔的决议边界:

在最优解中,大多数数据点不会位于边界上,因此它们的拉格朗日乘子(在优化题目中引入的用于处理约束的乘子)将为零。只有那些位于边界上的点(即支持向量)的拉格朗日乘子不为零,它们决定了最优的�w和�b。因此,SVM的解是希罕的,由于它只依赖于少数几个支持向量。
总的来说,线性SVM的解通常具有希罕性,由于它们只与支持向量有关,而非线性SVM的希罕性则取决于核函数和正则化参数的选择。
 是的,每个数据点在支持向量机(SVM)的优化题目中都有其对应的拉格朗日乘子,但是并不是全部的拉格朗日乘子都是非零的。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告
回复

使用道具 举报

×
登录参与点评抽奖,加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表