呆板学习-正则化技能

农民 · 2024-12-22 02:20:02

拟合

过拟合：参数（特征）过多（理解为考虑很多因素)或者说过多专注于原来的练习数据，导致模子过于复杂
欠拟合：参数太少，太不专注于原来的练习数据，导致模子过于简朴

随着模子复杂度增加（可以认为与练习数据的拟合水平）练习误差越来越小，泛化误差（就是与测试数据的误差）先小后大
复杂度的低中高分别对应欠拟合拟合过拟合
正则化

正则化的方法通常是在损失函数中添加一个正则化项，这个正则化项会根据模子参数的大小来惩罚模子的复杂度

正则项

L1 和 L2 正则化之所以会导致不同的权重结果，主要是由于它们对权重施加的惩罚方式不同（就是让权重变化的方式）
L1 正则化（Lasso）

L1 正则化在损失函数中加入了权重绝对值的和作为惩罚项。这意味着它会惩罚较大的权重值，并且对于较小的权重值也会产生明显的影响。因为它是基于绝对值的惩罚，所以当优化过程试图最小化整个损失函数时，它倾向于将一些权重直接缩小到零。这是因为：

对于非常小的权重 ( w )，L1 惩罚 ( |w| ) 与 ( w ) 成线性关系，即使 ( w ) 靠近于0，其导数仍旧是一个非零常数。
这导致了优化算法在更新这些权重时有持续的压力使其进一步趋近于0，终极可能到达完全为0的情况。
一旦某个权重被设为0，由于L1惩罚不再对其产生影响（因为0的绝对值还是0），该权重就保持稳定，相称于从模子中移除了相应的特征。

L2 正则化（Ridge）

另一方面，L2 正则化在损失函数中加入了权重平方和的惩罚项。这会产生以下结果：

对于任何非零权重 ( w )，L2 惩罚 ( w^2 ) 总是正的，并且随着 ( w ) 的增大而迅速增加。
但是，对于靠近零的 ( w )，( w^2 ) 增长得非常缓慢，因此L2惩罚对这些小权重的影响相对较小。
在优化过程中，L2 惩罚会对全部非零权重施加一个趋向于减小但不为零的压力，使得它们都变得比较小，但通常不会变成零。

简而言之，L1 正则化通过绝对值惩罚鼓励希罕解（即很多权重为0），而L2 正则化通过平方惩罚鼓励全部权重的小值分布，而不是让它们变为零。这种差异泉源于两者数学情势的不同以及它们如何影响梯度降落等优化算法的举动。
多元线性回归的正则化回归情势

代码

https://github.com/FULLK/AI_Study/blob/main/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E6%AD%A3%E5%88%99%E5%8C%96%E6%8A%80%E6%9C%AF/20newsgroups_logistic_regressuib.py

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

呆板学习-正则化技能

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云