吴旭华 发表于 2024-6-19 20:52:36

【西瓜书】4.决策树

1 递归返回情况

        (1)结点包含样本全为同一种别
        (2)属性集为空,没有属性可供划分了
                或
                有属性,但是在属性上划分的效果都一样
        (3)结点为空结点
**结束时判定该结点的种别遵循如下规则:
        (1)若全为一个种别,则该结点为该种别,如全为“好瓜”,则该结点为好瓜
        (2)若某一个种别比其他种别多,则该结点为该种别,如结点中的样本“好瓜”>“坏瓜”,则该结点为好瓜。
        (3)若所有种别样本数一样,或为空集,则取其父节点的种别作为该结点的种别。
https://img-blog.csdnimg.cn/direct/88fc9756da6a41a9a5d7a1a3fc83a87a.jpeg
    2.经典的属性划分方法

2.1.信息增益(选大)



[*]求样本集的信息熵,信息熵越小,则聚集越纯,如果聚集只属于1个种别,那么信息熵为0
[*]求每个属性每个取值的信息熵,这些信息熵按比例相加
[*]求每个属性的信息增益,等于样本集信息熵减去该属性的加权信息熵
[*]信息熵Ent(D)越小,数据集D的纯度越高
[*]信息增益越大,则使用该属性来举行划分所获得的“纯度提拔”越大
[*]https://img-blog.csdnimg.cn/direct/48c7a42610b04cec89c3355d803fe0a3.jpeg
2.2.增益率(选大)



[*]信息增益对可取值数量较多的属性有所偏好,所以用增益率克服这一缺点
[*]选择增益率大的属性,即选择信息增益大且分支少的属性
[*]https://img-blog.csdnimg.cn/direct/01d78ab4d22b4b359b894f96642a1899.jpeg
2.3.基尼指数(选小)



[*]反映了从D中随机抽取两个样本,其种别标记不一致的概率
[*]Gini(D)越小,数据集D的纯度越高
[*]https://img-blog.csdnimg.cn/direct/2f294b0cdaf144dfbafd302d753be423.jpeg
    3.剪枝处理

        划分选择的各种准则虽然对决策树的尺寸有较大影响,但对泛化性能的影响很有限;而剪枝方法和程度对决策树泛化性能的影响更为显著。(也就是说选择剪枝方法比选基尼指数、信息增益还是增益率这种划分战略的影响更大)
        是对付“过拟合”的主要手段,剪枝的基本战略:
3.1.预剪枝


[*]接纳基于分层采样的留出法,初始以为所有样本都是好的,此时可计算模型的正确率为验证集中好瓜的比例。
[*]运用一种属性划分方法选择出一个最好的属性举行划分,划分之后计算加了一层之后的正确率,并与未引入划分的正确率举行比较,若划分后的正确率>未划分就生成,否则不生成。
https://img-blog.csdnimg.cn/direct/d649bebb90534042be74fc88c435273d.png
3.2.后剪枝

        先生成完整的决策树,再倒着看每棵子树是否有价值。如果剪枝后的树>未剪枝的树则剪枝,否则不剪,当正确率相等时不做操纵,一方面是防止欠拟合,一方面是剪枝也会有一定的开销。
https://img-blog.csdnimg.cn/direct/438a2d98342849cfb89bf851ae1e9c9b.png
    4.连续值处理 



[*]与离散属性不同,若当前结点划分属性为连续属性,该属性还可作为其子女结点的划分属性。也就是在某个点算出按密度<0.35和密度>0.35划分,后面在计算时还要把密度纳入考虑范围,且下次的划分点可能就不是0.35了。而别的离散属性比如颜色,如果用过就从属性聚集中删去了。
[*]方法:二分法
[*]https://img-blog.csdnimg.cn/direct/d09c2540f8ae4be790001559927715a3.jpeg
    5.缺失值处理



[*] 样本赋权,权重划分 
https://img-blog.csdnimg.cn/direct/287ed0ca237d42b6af4d11350e537662.jpeg
https://img-blog.csdnimg.cn/direct/91bc5b7914624d35b4000cdf9288296d.jpeg
    单变量决策树
https://img-blog.csdnimg.cn/direct/f6d9b2306ccc4b25b8bbab6de0779c9f.png
多变量决策树
https://img-blog.csdnimg.cn/direct/c9d0f1c67f604460b17b4440b3caacd7.png

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 【西瓜书】4.决策树