呆板学习条记——欠拟合、过拟合

打印 上一主题 下一主题

主题 921|帖子 921|积分 2763

欠拟合

将练习损失和测试损失都比较大的拟合叫欠拟合,那么他的预测精度很低
1.一般出如今模型的复杂度小于数据自己的复杂度导致的,这个可能就是模型对数据的分布和现实数据分布之间的差异,这个就可能需要更换模型
2.还可能出如今梯度下降算法中,迭代次数少大概学习率低的情况,这个可以有挽留时机,通过增加次数、学习率就可以了
过拟合

练习损失小而测试损失大的情况叫过拟合
欠拟合就是模型过度拟合到观测数据中不具有普遍的部分,以至于在对未观测的数据标签举行预测时出现较大的毛病,可能出如今模型的复杂度大于数据的复杂度
更一般的,欠拟合和过拟合取决于模型自己的复杂度
数据的模式

其实我们在监督学习中,标签y和变量x直接的关系就是所谓的模式记作f(x),呆板学习的使命就是给出数据,找到这种模式
数据的噪声

是指数据点偏离数据模式的随机信息
正则化束缚

过拟合的本质是由于模型的参数过于复杂,所以需要引入某种限定,防止过拟合的方向发展,如许的束缚称为正则化。
在线性回归中如果数据N小于数据特征d就会出现过拟合就要在损失函数中加入一个正则项λ/2*||θ||^2,这称为L2范数,运用此方法的线性回归叫岭回归。别的还可以采用L0范数,衡量向量的非零元素个数,λ*||θ|| 如许的束缚称为lasso回归
超参数的特点

不通过模型优化而需要人为指定的参数就叫超参数,调解的过程叫调参
选择模型和调解参数的呆板学习的必要步骤
数据集分别与交叉验证

为进一步消除数据分布的影响,在分别练习集和验证集时,采用随机分别、
交叉验证
交叉验证就是将数据集分成k份,每一份单独练习,在i次练习中把第i份作为验证集,其余作为练习集,然后取平均损失。k一般取5-10,由于k小受随机性影响大,但是方差小,反之。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

小小小幸运

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表