机器学习中的欠拟合

打印 上一主题 下一主题

主题 862|帖子 862|积分 2586

当模型不能够准确地表达输入与输出的关系时,就是欠拟合。它在练习集和未见过的数据都会产生高偏差率。太过拟合则在练习集体现出低偏差率,只有对未见过的数据体现出高偏差率。
当模型太过于简单时,它需要更多的练习时间、更多的输入特性、更少的正则化,此时欠拟合就大概会发生。当模型太过于复杂,随着更多的练习时间、更多的输入特性、更少的正则化处理,太过拟合就大概会发生。
欠拟合和太过拟合一样,不能够在数据中建立主导趋势,导致模型练习错误、性能低。模型固然就也很难很好地泛化到其他新的数据上(如果一个模型没有泛化的能力,那么这个模型险些是没有效的)。如许的模型也就不能够用来做分类或预测的任务。
我们以前也提到过,高偏差和低方差是模型出现欠拟合的信号。低偏差、高方差则是出现太过拟合的信号。高偏差、低方差在练习数据会合就可以看出来,所以欠拟合比太过拟合好发现。当模型被太过练习或者太复杂,在测试数据会合就会体现出高偏差率。 一般来说,太过拟合比欠拟合常见。有时,我们为了制止太过练习模型导致太过拟合,会提前制止模型练习,但是这个提前有时太早了,反而在这个情况下导致了欠拟合的问题。这里也引出另一种情况也会导致欠拟合,那就是练习不敷,办理之道就是增加练习时间,这个又要考虑如何制止练习时间太长造成太过拟合的问题。练习时间的把握就是要权衡好这两者。
模型太简单,也会导致欠拟合,办理之道就是增加相干特性的输入。特性太少的话,在现实天下中,大概会对应很多大概的输出,如许的模型就像在乱说八道,现实上,是我们自己想得太简单了,增加相干的特性输入,就可以收窄这扇——更容易定位到我们盼望的结果上。留意,如果增加太多长特性输入,又增加了模型太过拟合的大概性,造成模型低偏差、高方差。所以我们练习模型时,总要在欠拟合和太过拟之间找一个平衡点,就是要我们根据需求来权衡。这就是所谓的偏差方差平衡(bias-variance tradeoff)。
有一些机器学习模型更加容易出现太过拟合的问题,如决策树、KNN。要识别出太过拟合会比识别欠拟合更困难些。太过拟合在练习数据集就体现出高准确性,为了更好地评价模型是否真的有这些高的准确性,通常使用k-folds交织验证。
在k-folds交织验证中,数据集会被分成k个巨细相干的子集(fold),接着把第一个子集充当测试集(验证集、留出集、反抗组),剩下的数据都用作练习。然后,由二个子集充当测试集,剩下的数据都用作练习。依次类推,直到这k个子集都做过一次测试集为止。每一交迭代都会得到一个关于模型准确性的分数,当迭代完所有子集,将所得的分数取平均值,将其作为评价模型准确性的最终分数。我们可以根据这个分数,了解我们的模型的拟合情况。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

火影

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表