0
点赞
收藏
分享

微信扫一扫

决策树 信息增益与信息增益比

惠特曼 2022-02-21 阅读 56

 

其中『年龄』属性的三个取值{0, 1, 2}对应{青年、中年、老年};『有工作』、『有自己房子』属性的两个取值{0, 1}对应{否、是};『信贷情况』的三个取值{0, 1, 2}对应{一般、好、非常好};『类别』属性表示是否同意贷款取值{0, 1}对应{否、是}。

这种模型等同于我们写的条件语句,所以它的预测分类速度是很快的。

  • 所有数据从根节点开始
  • 自上而下分而治之
  • 样本根据属性集递归进行分割
  • 通过一定规则或算法选择属性
  • 每个节点上的数据都是同一类时则停止分割
  • 根据样本训练出来的决策树尽可能与样本集没有矛盾且有预测能力
  • 决策树生成只考虑局部最优,剪枝则全局最优

ID3和C4.5算法:ID3决策树算法在决策树生成的过程中,每个节点使用的是信息增益来选择分割属性。大致的步骤是从根节点开始,分别假设各个属性作为分割时的信息增益,即是像上面属性分割选择过程那样计算,选出信息增益最大的属性作为根节点的分割属性。完成后根据属性又可以分成若干分支,每个分支对应一个子节点,然后又根据上面的步骤计算不同属性的信息增益,不断递归下去,直到某节点以每个属性作为分割时的信息增益都很小或已经没有属性可以选择,这时则停止计算,得到一个最终的决策树。

C4.5与ID3创建决策树的过程类似,不同的是它的属性划分的选择是根据信息增益率的,而不是使用信息增益。

信息增益:

要理解信息增益的首要前提是理解『熵』这一抽象概念。

『熵』是信息的一个度量单位,在信息论与概率统计中,『熵』表示随机变量不确定性的程度,变量的不确定性越大,『熵』就越大,要了解(评估)这一变量需要的信息量也就越多。

信息增益比:

信息增益比算法修正了信息增益算法中会对某一特征取值较多时产生偏向的情况。

综上,最优特征选择思路很简单,就是遍历所有的特征寻找信息增益或者信息增益比最大的特征。

可以看到生成决策树时涉及到一个阈值,这个阈值是代表了能够算法忍受的最低信息不确定性因子,因为不管使用信息增益或者是信息增益比算法,其核心都是以最小化特征𝑨对𝑫的不确定性亦𝑯(𝑫|𝑨),当𝑯(𝑫|𝑨)无限逼近𝑯(𝑫)时,此时可以说特征𝑨对于了解𝑫事件来说毫无意义,因此这个阈值就是在限定这种情况的最低限度。


因本人水平尚浅,文中一定存在许多纰漏或者错误的地方,恳请各位热心学者批评指正。
参考链接:https://juejin.cn/post/6844903556529537037、https://juejin.cn/post/6844904069203492878

举报

相关推荐

什么是信息增益比

信息增益率

0 条评论