导读
马上开启第五章决策树部分内容的学习,预计用时2-3天~
声明:以下截图来自书本以及b站课程(up主:简博士)。
一、决策树
1. 介绍
分类决策树模型是一种描述对实例进行分类的树形结构。
2.组成
1)决策树由结点和有向边构成,结点又可以分为内部结点和叶结点。
2)其中内部结点表示特征或者属性,而叶结点表示类别。最上端的内部结点也叫做根结点。
3. If-Then规则
1)决策树是通过一系列规则对数据进行分类的过程。
2)一个叶结点,即一个类别,可能对应多条路径;而一个实例仅对应一条路径。
3)If-Then规则是互斥且完备的。
4. 条件概率分布
1)一条路径对应于划分中的一个单元;
2) 决策树的条件概率分布由各个单元给定条件下类的条件概率分布组成。
二、构建决策树
三、决策树的学习
1. 策略
——最小化损失函数
2.特征选择
——递归选择最优特征
2.1 信息增益:熵
(1) 熵表示随机变量不确定性
(2) 信息增益:得知特征X而使类Y的信息的不确定性减少的程度。
哪个特征能提供更大的信息增益使得熵更小,就优先选用哪个特征。
(3) 信息增益算法
2.2 信息增益比
减少因为取值个数不同造成的信息增益计算上的误差。
3. 生成
——对应特征空间的划分,直到所有训练子集被基本正确分类
4.剪枝
——避免过拟合,具有更好的泛化能力
四、决策树的生成
算法
1. ID3算法
——使用信息增益进行特征选择
2. C4.5算法
——使用信息增益比进行特征选择
五、决策树的剪枝
——处理决策树的过拟合问题
1. 优秀决策树的特征
1)具有良好的拟合和泛化能力;2)深度小(所有结点的最大层次数)/叶结点少。
2.剪枝
1)预剪枝
在生成过程中,对每个结点划分前进行估计,若当前结点的划分不能提高泛化能力,则停止划分,标记为叶结点。
- 限定决策树的深度
- 设定一个阈值
- 设置某个指标,比较结点划分前后的泛化能力
2)后剪枝
生成决策树后,自底而上考察内部结点,若内部结点变为叶结点可以提升泛化能力,则进行替换。
-
降低错误剪枝(REP):计算简单、容易理解,但受测试集影响较大。
-
悲观错误剪枝(PEP)——根据训练集计算错误率、自上而下剪枝:适用于实例较少的问题、效率更高,但可能会修剪掉不应剪掉的枝条。
-
最小误差剪枝(MEP)——根据剪枝前后的最小分类错误概率来决定是否剪枝,自下而上,仅需要训练集。
-
基于错误剪枝(EBP)——自下而上,仅需要训练集。
(一般取alpha=0.25) -
代价-误差剪枝(CCP)——根据剪枝前后的损失函数决定。
六、CART算法
Classification and Regression Tree(分类与回归树)
1. 分类树
(1)简介
- 二叉树结构
- 一般左叉代表“是”,右叉代表“否”
(2)基尼指数
——用以表示不确定性。
基尼指数越小,表示特征越有利于分类。
(3)具体算法
2. 回归树
(1)介绍
对应连续变量,得到最优切分点并通过计算平方误差得到最优切分变量。
(2)具体算法
3. 剪枝
(1)介绍
其中C(T)是代价,|T|是复杂度,alpha是惩罚参数。 alpha取0的时候,对应一棵完整的树,而alpha取∞的时候,则是一棵单结点树。