IT评测·应用市场-qidao123.com技术社区

标题: 呆板学习基础 - 分类模子之决议树 [打印本页]

作者: 杀鸡焉用牛刀    时间: 2025-4-23 06:52
标题: 呆板学习基础 - 分类模子之决议树
决议树

<hr>
  
    算法   分别标准         ID3   信息增益       C4.5   信息增益率       CART   基尼系数   简介

决议树是一个分而治之的递归过程。

决议树三要素


1. 特性的选择

有三种方法举行特性选择:ID3: 信息增益,C4.5: 信息增益比,CART: 基尼系数
1. ID3

思想: 盘算全部特性分别数据集D,得到多个特性分别数据集D的信息增益,从这些信息增益中选择最大的,因而当前结点的分别特性便是使信息增益最大的分别所使用的特性。
  1. 1.对当前例子集合,计算各属性的信息增益;
  2. 2.选择信息增益最大的属性Ak;
  3. 3.把在Ak处取值相同的例子归于同一子集,Ak取几个值就得几个子集;
  4. 4.对既含正例又含反例的子集,递归调用建树算法;
  5. 5.若子集仅含正例或反例,对应分枝标上P或N,返回调用处。
复制代码
信息增益: 度量以某特性分别数据集前后的信息熵的差值。 信息熵能够表示样本聚集的不确定性,因此我们能够通过前后聚集信息熵的差值来权衡使用当前特性对于样本聚集D分别效果的好坏。
假设分别前样本聚集D的熵为  H ( D ) H(D) H(D)。使用某个特性A分别数据集D,盘算分别后的数据子集的熵为  H ( D ∣ A ) H(D|A) H(D∣A) 。
  信息熵: H ( D ) = − ∑ k = 1 k ∣ C k ∣ ∣ D ∣ l o g 2 ∣ C k ∣ ∣ D ∣ 条件熵: H ( D ∣ A ) = ∑ i = 1 n ∣ D i ∣ ∣ D ∣ H ( D i ) 信息增益: g ( D , A ) = H ( D ) − H ( D ∣ A ) 信息熵:H(D) = - \sum_{k=1}^k \frac{|C_k|}{|D|} log_2 \frac{|C_k|}{|D|} \\ 条件熵: H(D|A) = \sum_{i=1}^n \frac{|D_i|}{|D|} H(D_i) \\ 信息增益: g(D,A)=H(D)-H(D|A) 信息熵:H(D)=−k=1∑k​∣D∣∣Ck​

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/) Powered by Discuz! X3.4