西瓜书第六章(集成学习)
集成学习前言
集成学习是一种机器学习方法,通过组合多个弱学习器构建一个强学习器。常见算法有加权多数投票、Bagging和Boosting等。加权多数投票简单地对弱学习器进行加权投票得到终极结果;Bagging使用不同训练集训练多个弱学习器,并将它们的推测结果均匀化提升性能;Boosting迭代训练弱学习器,根据体现调整样本权重得到终极结果。AdaBoost是Boosting的一种实现,通过调整样本权重训练多个弱分类器。Bagging和Boosting的区别在于模子关系和权重更新机制。集成学习可以根据问题选择恰当的算法。
一、集成学习是什么?
集成学习 (ensemble learning) 通过构建并结合多个学习器来完成学习任务
https://i-blog.csdnimg.cn/direct/18b7491a379a46299ac760de4fa38b7b.png
一些概念:同质(homogeneous),异质(heterogenous) .,基学习器
根本想法
https://i-blog.csdnimg.cn/direct/1eedfd262f9c453e94c0b14da98197ea.png
二、强/ 弱学习器是什么?
1.强学习器: 有高准确度的学习算法
2.弱学习器: 在任何训练集上可以做到比随机推测 略好
三、算法
1) Weighted Majority Algorithm
(加权多数算法)
1.1)根本想法(step):
1.初始化
为每个算法分配一个初始相称的权重。
2.推测
对于每一个新的实例,根据当前的权重分布计算出加权多数推测。这通常意味着选择那些权重较高的算法所发起的动作或推测。
3.更新
当观察到真实结果后,减少那些给出错误推测的算法的权重。权重的更新规则通常是将这些算法的权重乘以一个小于1的因子(称为惩罚因子,假如=0,则只要犯错一次,就没有决议权–Halving算法),以反映他们在这一步调中的失误。
4.重复
回到步调2,直到完成所有推测或者达到预定的停止条件
1.2)简单理解:
你有一群朋友,每个人都给你提供投资发起。起初,你可能会同等地听取每个人的意见。但随着时间的推移,你会发现有些朋友的发起更准确,而另一些则不那么靠谱。于是,你会开始更多地依靠那些更准确的朋友的发起,同时减少对那些经常出错的朋友的关注
2)Bagging(假如我们只有一个弱学习器,如何通过集成来提升它的体现?)
2.1)根本想法:
生成多组训练样本 来训练多个模子
Bagging的核心在于创建多个不同的训练集,每个训练集都是从原始数据会合通过有放回抽样(Bootstrap Sampling) 得到的。这意味着在构建每个新的训练集时,某些数据点可能会被多次选中,而其他数据点可能一次也没有被选中。然后,使用这些不同的训练集分别训练独立的学习器(通常使用相同的算法),最后将这些学习器的结果进行汇总以做出终极推测
[*]打乱训练集合可以造成产生的推测器大不相同,则bagging算法可以提升其准确率。” (Breiman 1996)
3)Boosting(从失败中学习)
根本想法:
• 给每个样本一个权值
• T 轮迭代,在每轮迭代后增大错误分类样本的权重
– 更关注于“难”样本
简单理解:
比如背一组单词,单词的熟练度有含糊的和熟练,在过程中含糊的反复记忆(加大权重),熟练的减少记忆(减小权重)
4)AdaBoost(Boosting算法之一)
https://i-blog.csdnimg.cn/direct/508f02a2f4334eb7880e7d877f1dfdce.png
4.1)根本想法(step):
https://i-blog.csdnimg.cn/direct/b0fe03757de0481db4bc529d485a6ad8.png
四、比力
1)Bagging vs. Boosting
https://i-blog.csdnimg.cn/direct/442ca01413ed426e8a1d80f2d210a963.png
2)Bagging 与随机森林
随机森林(Random Forest) 是 Bagging 的一种详细实现形式
https://i-blog.csdnimg.cn/direct/cdda75a5232341739c19b8dbf79437c0.png
3)重新调权 vs. 重新采样
https://i-blog.csdnimg.cn/direct/b4f892ceef4a40efb10913117b0b936c.png
4)Boostingvs. Weighted Majority Algorithm
https://i-blog.csdnimg.cn/direct/8ad8a9e168fb4dba9d6646a5aec797c4.png
1. 模子间关系
[*] Boosting:
[*]各个弱学习器之间是顺序依靠的,背面的模子会基于前面模子的体现进行调整。
[*]终极推测结果是所有弱学习器的加权组合,权重反映了各模子的重要性。
[*] WMA:
[*]各个专家之间是相互独立的,没有直接的顺序依靠关系。
[*]终极推测结果是所有专家推测的加权均匀或加权投票,权重反映了各专家的历史体现。
2. 权重更新机制
[*] Boosting:
[*]权重更新是针对样本的。假如某个样本被当前学习器错误分类,则其权重增加,使得后续学习器更加关注该样本。
[*] WMA:
[*]权重更新是针对专家的。假如某个专家做出了错误推测,则它的权重减少;正确推测则保持不变或略有增加。
五、拓展
1. 试析 Bagging 通常难以提升朴素贝叶斯分类器的性能
https://i-blog.csdnimg.cn/direct/2c1289942a6246d3b1d095b4409141fb.png
2.试析随机森林为何比决议树Bagging 集成的训练速度更快.
https://i-blog.csdnimg.cn/direct/1320632a36b34c05a0eb7bc3cf2018a4.png
总结
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]