论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com技术社区
»
论坛
›
物联网
›
物联网
›
【西瓜书】4.决策树
【西瓜书】4.决策树
吴旭华
论坛元老
|
2024-6-19 20:52:36
|
显示全部楼层
|
阅读模式
楼主
主题
1770
|
帖子
1770
|
积分
5310
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
1 递归返回情况
(1)结点包含样本全为同一种别
(2)属性集为空,没有属性可供划分了
或
有属性,但是在属性上划分的效果都一样
(3)结点为空结点
**结束时判定该结点的种别遵循如下规则:
(1)若全为一个种别,则该结点为该种别,如全为“好瓜”,则该结点为好瓜
(2)若某一个种别比其他种别多,则该结点为该种别,如结点中的样本“好瓜”>“坏瓜”,则该结点为好瓜。
(3)若所有种别样本数一样,或为空集,则取其父节点的种别作为该结点的种别。
2.经典的属性划分方法
2.1.信息增益(选大)
求
样本集
的
信息熵
,信息熵越小,则聚集越纯,如果聚集只属于1个种别,那么信息熵为0
求
每个属性
每个取值的
信息熵
,这些信息熵按比例相加
求
每个属性
的
信息增益
,等于样本集信息熵减去该属性的加权信息熵
信息熵Ent(D)越小,数据集D的纯度越高
信息增益越大,则使用该属性来举行划分所获得的“纯度提拔”越大
2.2.增益率(选大)
信息增益对可取值数量较多的属性有所偏好,所以用增益率克服这一缺点
选择增益率大的属性,即选择
信息增益大
且
分支少
的属性
2.3.基尼指数(选小)
反映了从D中随机抽取两个样本,其种别标记不一致的概率
Gini(D)越小,数据集D的纯度越高
3.剪枝处理
划分选择的各种准则虽然对决策树的尺寸有较大影响,但对泛化性能的影响很有限;而剪枝方法和程度对决策树泛化性能的影响更为显著。(也就是说选择剪枝方法比选基尼指数、信息增益还是增益率这种划分战略的影响更大)
是对付“过拟合”的主要手段,剪枝的基本战略:
3.1.预剪枝
接纳基于分层采样的留出法,初始以为所有样本都是好的,此时可计算模型的正确率为验证集中好瓜的比例。
运用一种属性划分方法选择出一个最好的属性举行划分,划分之后计算加了一层之后的正确率,并与未引入划分的正确率举行比较,若划分后的正确率>未划分就生成,否则不生成。
3.2.后剪枝
先生成完整的决策树,再倒着看每棵子树是否有价值。如果剪枝后的树>未剪枝的树则剪枝,否则不剪,当正确率相等时不做操纵,一方面是防止欠拟合,一方面是剪枝也会有一定的开销。
4.连续值处理
与离散属性不同,若当前结点划分属性为连续属性,该属性还可作为其子女结点的划分属性。也就是在某个点算出按密度<0.35和密度>0.35划分,后面在计算时还要把密度纳入考虑范围,且下次的划分点可能就不是0.35了。而别的离散属性比如颜色,如果用过就从属性聚集中删去了。
方法:二分法
5.缺失值处理
样本赋权,权重划分
单变量决策树
多变量决策树
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
吴旭华
论坛元老
这个人很懒什么都没写!
楼主热帖
mamba-ssm安装building wheel卡着不动 ...
【云原生】第二篇--容器管理工具 Docke ...
数据库系统课程设计(高校成绩管理数据 ...
《原CSharp》第二回 巧习得元素分类 子 ...
使用TrueNas(FreeNas)进行华为手机备 ...
JVM虚拟机性能监控与故障处理工具(3) ...
【图论】—— 有向图的强连通分量 ...
java中==和equals区别
Spark 总复习
AWVS漏洞扫描器的使用
标签云
AI
运维
CIO
存储
服务器
浏览过的版块
linux
DevOps与敏捷开发
前端开发
Oracle
数据仓库与分析
SQL-Server
程序人生
快速回复
返回顶部
返回列表