信息增益: 度量以某特性分别数据集前后的信息熵的差值。 信息熵能够表示样本聚集的不确定性,因此我们能够通过前后聚集信息熵的差值来权衡使用当前特性对于样本聚集D分别效果的好坏。
假设分别前样本聚集D的熵为 H ( D ) H(D) H(D)。使用某个特性A分别数据集D,盘算分别后的数据子集的熵为 H ( D ∣ A ) H(D|A) H(D∣A) 。
信息熵: H ( D ) = − ∑ k = 1 k ∣ C k ∣ ∣ D ∣ l o g 2 ∣ C k ∣ ∣ D ∣ 条件熵: H ( D ∣ A ) = ∑ i = 1 n ∣ D i ∣ ∣ D ∣ H ( D i ) 信息增益: g ( D , A ) = H ( D ) − H ( D ∣ A ) 信息熵:H(D) = - \sum_{k=1}^k \frac{|C_k|}{|D|} log_2 \frac{|C_k|}{|D|} \\ 条件熵: H(D|A) = \sum_{i=1}^n \frac{|D_i|}{|D|} H(D_i) \\ 信息增益: g(D,A)=H(D)-H(D|A) 信息熵:H(D)=−k=1∑k∣D∣∣Ck