0
点赞
收藏
分享

微信扫一扫

决策树之C4.5算法


C4.5算法是机器学习中的一个重要的决策树算法,它是对ID3算法的改进,相对于ID3算法主要有以下几个改进

 

  (1)用信息增益率来选择属性

  (2)在决策树的构造过程中对树进行剪枝

  (3)对非离散数据也能处理

  (4)能够对不完整数据进行处理

 

接下来分别详细讲述这几点的改进方案

 

(1)用信息增益率来选择属性

 

    在ID3算法中,我们知道是用信息增益来选择属性的,而信息增益的缺点是比较偏向选择取值较多的属性,

    在C4.5算法中,除了一项分裂信息来惩罚取值更多的属性,所以得到如下公式

 

                        

决策树之C4.5算法_决策树

 

    其中

决策树之C4.5算法_数据_02

表示信息增益,而

决策树之C4.5算法_决策树_03

表示分裂信息,它的计算公式如下

 

                        

决策树之C4.5算法_决策树_04

    

决策树之C4.5算法_信息增益_05

表示当前属性的所有取值。

 

 

(2)在决策树的构造过程中对树进行剪枝

 

    在C4.5算法中,采用了悲观剪枝的方法,它使用训练集生成决策树,又用训练集来进行剪枝。

 


 

 

(3)对非离散数据也能处理

 

    其实C4.5算法对连续性数据的处理也是当作离散数据处理的,具体可以参考上面的链接。

 

 

最后介绍一个机器学习软件weka,weka中C4.5算法的使用参考:http://www.docin.com/p-27992090.html

 

举报

相关推荐

0 条评论