qidao123.com技术社区-IT企服评测·应用市场

标题: 机器学习-入门-决议树(1) [打印本页]

作者: 玛卡巴卡的卡巴卡玛    时间: 2025-5-7 01:44
标题: 机器学习-入门-决议树(1)
机器学习-入门-决议树(1)

4.1决议树的根本流程

决议树基于“树”结构进行决议

学习过程:通过对练习样本的分析来确定“划分属性”(即内部结点所对应的属性)
猜测过程:将测试示例从根结点开始,沿着划分属性所构成的“判断测试序列”下行,直到叶结点
策略:“分而治之” (divide-and-conquer)

三种停止条件
根本算法

输入

过程:函数                                    TreeGenerate                         (                         D                         ,                         A                         )                              \text{TreeGenerate}(D, A)                  TreeGenerate(D,A)
输出:以                                    node                              \text{node}                  node 为根结点的一棵决议树
4.2信息增益划分

信息熵 (Entropy)

信息熵是度量样本聚集"纯度"最常用的指标。
定义
对于样本聚集                                    D                              D                  D,此中第                                    k                              k                  k 类样本所占比例为                                              p                            k                                       p_k                  pk​,信息熵定义为:
                                         E                            n                            t                            (                            D                            )                            =                            −                                       ∑                                           k                                  =                                  1                                                      ∣                                  Y                                  ∣                                                            p                               k                                                             log                                  ⁡                                          2                                                 p                               k                                            Ent(D) = -\sum_{k=1}^{|\mathcal{Y}|} p_k \log_2 p_k                     Ent(D)=−k=1∑∣Y∣​pk​log2​pk​
约定

性子

信息增益
基于信息熵盘算当前划分对信息熵的变革,用于选择最优划分属性。
信息增益 (Information Gain)

定义
对于离散属性                                    a                              a                  a 有                                    V                              V                  V 个取值                                    {                                   a                            1                                  ,                                   a                            2                                  ,                         …                         ,                                   a                            V                                  }                              \{a^1, a^2, \ldots, a^V\}                  {a1,a2,…,aV},其信息增益公式为:
                                         Gain                            (                            D                            ,                            a                            )                            =                            Ent                            (                            D                            )                            −                                       ∑                                           v                                  =                                  1                                          V                                                             ∣                                               D                                     v                                              ∣                                                      ∣                                  D                                  ∣                                                 Ent                            (                                       D                               v                                      )                                  \text{Gain}(D, a) = \text{Ent}(D) - \sum_{v=1}^V \frac{|D^v|}{|D|} \text{Ent}(D^v)                     Gain(D,a)=Ent(D)−v=1∑V​∣D∣∣Dv∣​Ent(Dv)
符号说明

关键点

4.3其他属性划分准则

信息增益的缺陷


增益率 (Gain Ratio)

定义
                                         Gain_ratio                            (                            D                            ,                            a                            )                            =                                                   Gain                                  (                                  D                                  ,                                  a                                  )                                                      IV                                  (                                  a                                  )                                                       \text{Gain\_ratio}(D,a) = \frac{\text{Gain}(D,a)}{\text{IV}(a)}                     Gain_ratio(D,a)=IV(a)Gain(D,a)​
此中 固有值 (Intrinsic Value) 为:
                                         IV                            (                            a                            )                            =                            −                                       ∑                                           v                                  =                                  1                                          V                                                             ∣                                               D                                     v                                              ∣                                                      ∣                                  D                                  ∣                                                                        log                                  ⁡                                          2                                                             ∣                                               D                                     v                                              ∣                                                      ∣                                  D                                  ∣                                                       \text{IV}(a) = -\sum_{v=1}^{V} \frac{|D^v|}{|D|} \log_2 \frac{|D^v|}{|D|}                     IV(a)=−v=1∑V​∣D∣∣Dv∣​log2​∣D∣∣Dv∣​
关键性子
留意:增益率可能对取值较少的属性有偏好,实践中常先筛选信息增益高于平均的属性,再从中选增益率最大的。
基尼指数 (Gini Index)

基尼值的定义

数据集                                    D                              D                  D 的基尼值衡量从                                    D                              D                  D 中随机抽取两个样本其类别标志不同等的概率:
                                         Gini                            (                            D                            )                            =                                       ∑                                           k                                  =                                  1                                                      ∣                                  Y                                  ∣                                                            ∑                                                        k                                     ′                                              ≠                                  k                                                            p                               k                                                 p                                           k                                  ′                                                 =                            1                            −                                       ∑                                           k                                  =                                  1                                                      ∣                                  Y                                  ∣                                                            p                               k                               2                                            \text{Gini}(D) = \sum_{k=1}^{|\mathcal{Y}|} \sum_{k' \neq k} p_k p_{k'} = 1 - \sum_{k=1}^{|\mathcal{Y}|} p_k^2                     Gini(D)=k=1∑∣Y∣​k′=k∑​pk​pk′​=1−k=1∑∣Y∣​pk2​
性子

属性                                    a                              a                  a 的基尼指数定义为各子集基尼值的加权和:
                                         Gini_index                            (                            D                            ,                            a                            )                            =                                       ∑                                           v                                  =                                  1                                          V                                                             ∣                                               D                                     v                                              ∣                                                      ∣                                  D                                  ∣                                                 Gini                            (                                       D                               v                                      )                                  \text{Gini\_index}(D,a) = \sum_{v=1}^V \frac{|D^v|}{|D|} \text{Gini}(D^v)                     Gini_index(D,a)=v=1∑V​∣D∣∣Dv∣​Gini(Dv)
此中                                              D                            v                                       D^v                  Dv 是                                    D                              D                  D 中属性                                    a                              a                  a 取值为                                              a                            v                                       a^v                  av 的子集。
划分准则

应用

示例
若属性                                    a                              a                  a 将                                    D                              D                  D 划分为                                              D                            1                                       D_1                  D1​ 和                                              D                            2                                       D_2                  D2​,则基尼指数为:
                                         Gini_index                            (                            D                            ,                            a                            )                            =                                                   ∣                                               D                                     1                                              ∣                                                      ∣                                  D                                  ∣                                                 Gini                            (                                       D                               1                                      )                            +                                                   ∣                                               D                                     2                                              ∣                                                      ∣                                  D                                  ∣                                                 Gini                            (                                       D                               2                                      )                                  \text{Gini\_index}(D,a) = \frac{|D_1|}{|D|} \text{Gini}(D_1) + \frac{|D_2|}{|D|} \text{Gini}(D_2)                     Gini_index(D,a)=∣D∣∣D1​∣​Gini(D1​)+∣D∣∣D2​∣​Gini(D2​)
决议树泛化性能的关键因素

划分准则的影响

剪枝的焦点作用

实践建议



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/) Powered by Discuz! X3.4