杀鸡焉用牛刀 发表于 2025-4-23 06:52:34

呆板学习基础 - 分类模子之决议树

决议树

<hr>

      算法   分别标准       ID3   信息增益   C4.5   信息增益率   CART   基尼系数 简介

决议树是一个分而治之的递归过程。


[*]开始,构建根节点,将全部训练数据都放在根节点。
[*]然后,选择一个最优特性,按照这一特性将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类。
[*]如果子集未分类完毕,则在子会合选择一个最优特性,继续举行分别,直到全部训练数据子集都被精确分类或没有合适的特性为止。
决议树三要素



[*]特性选择: 从训练数据中浩繁的特性中选择一个特性作为当前节点的分裂标准,怎样选择特性有着很多差别量化评估标准标准,从而衍生出差别的决议树算法。
[*]**决议树天生:**根据选择的特性评估标准,从上至下递归地天生子节点,直到数据集不可分则停止决议树停止生长。
[*]**决议树的修剪:**决议树容易过拟合,一样平常来必要剪枝,缩小树结构规模、缓解过拟合。剪枝技能有预剪枝和后剪枝两种。
1. 特性的选择

有三种方法举行特性选择:ID3: 信息增益,C4.5: 信息增益比,CART: 基尼系数
1. ID3

思想: 盘算全部特性分别数据集D,得到多个特性分别数据集D的信息增益,从这些信息增益中选择最大的,因而当前结点的分别特性便是使信息增益最大的分别所使用的特性。
1.对当前例子集合,计算各属性的信息增益;
2.选择信息增益最大的属性Ak;
3.把在Ak处取值相同的例子归于同一子集,Ak取几个值就得几个子集;
4.对既含正例又含反例的子集,递归调用建树算法;
5.若子集仅含正例或反例,对应分枝标上P或N,返回调用处。
信息增益: 度量以某特性分别数据集前后的信息熵的差值。 信息熵能够表示样本聚集的不确定性,因此我们能够通过前后聚集信息熵的差值来权衡使用当前特性对于样本聚集D分别效果的好坏。
假设分别前样本聚集D的熵为H ( D ) H(D) H(D)。使用某个特性A分别数据集D,盘算分别后的数据子集的熵为H ( D ∣ A ) H(D|A) H(D∣A) 。
信息熵: H ( D ) = − ∑ k = 1 k ∣ C k ∣ ∣ D ∣ l o g 2 ∣ C k ∣ ∣ D ∣ 条件熵: H ( D ∣ A ) = ∑ i = 1 n ∣ D i ∣ ∣ D ∣ H ( D i ) 信息增益: g ( D , A ) = H ( D ) − H ( D ∣ A ) 信息熵:H(D) = - \sum_{k=1}^k \frac{|C_k|}{|D|} log_2 \frac{|C_k|}{|D|} \\ 条件熵: H(D|A) = \sum_{i=1}^n \frac{|D_i|}{|D|} H(D_i) \\ 信息增益: g(D,A)=H(D)-H(D|A) 信息熵:H(D)=−k=1∑k​∣D∣∣Ck​

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 呆板学习基础 - 分类模子之决议树