【算法练习Day2】有序数组的平方&&长度最小子数组&&螺旋矩阵II-CFANZ编程社区

决策树（decision tree）是一种基本的分类与回归方法。本章主要讨论用于分类的决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。

它可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。

其主要优点：1.模型具有可读性；2.分类速度快

阶段	操作
学习时	利用训练数据，根据损失函数最小化的原则建立决策树模型
预测时	对新的数据，利用决策树模型进行分类

决策树学习通常包括3个步骤：特征选择->决策树的生成->决策树的修剪

5.1决策树模型与学习

5.1.1决策树模型

定义5.1(决策树)：分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型:内部结点(internalnode)和叶结点(leaf node)。内部结点表示一个特征或属性，叶结点表示一个类。
在这里插入图片描述

5.1.2决策树与if-then规则

5.1.3决策树与条件概率分布

5.1.4决策树学习

决策树学习用损失函数表示这一目标。如下所述，决策树学习的损失函数通常是正则化的极大似然函数。决策树学习的策略是以损失函数为目标函数的最小化。
当损失函数确定后，学习问题就变为在损失函数意义下选择最优决策树的问题。因为从所有可能的决策树中选取最优决策树是NP完全问题，所以现实中决策树学习算法通常采用启发式方法，近似求解这一最优化问题，这样得到的决策树是次最优(sub-optimal)的。

决策树学习算法包含特征选择、决策树的生成与决策树的剪枝过程。由于决策树表示一个条件概率分布，所以深浅不同的决策树对应着不同复杂度的概率模型。决策树的生成对应于模型的局部选择，决策树的剪枝对应于模型的全局选择。决策树的生成只考虑局部最优，相对地，决策树的剪枝则考虑全局最优。

决策学习常用的算法有ID3、C4.5与CART，下面结合这些算法分别叙述决策树学习的特征选择、决策树的生成和剪枝过程。

5.2特征选择

5.2.1特征选择问题

通常特征选择的准则是信息增益或信息增益比

5.2.2信息增益

为了便于说明，先给出熵与条件熵的定义
在信息论与概率统计中，熵（entropy）是表示随机变量不确定性的度量。设X是一个取有限个值的离散随机变量，其概率分布为
$P(X=x_i)=p_i,i=1,2,...,n$
则随机变量X的熵定义为（若 $p_i=0$ ，则定义 $0 l o g 0 = 0$ ）
$H(X)=-\sum\limits_{i=1}^n p_i log p_i$
由于熵只依赖于X的分布，而与X的取值无关，所以也可将X的熵记作H§，即
$H(p)=-\sum\limits_{i=1}^n p_i log p_i$
熵越大，随机变量的不确定性就越大。从定义可验证
$0 \leq H (p) \leq l o g n$

设有随机变量 $(X, Y)$ ，其联合概率分布为
$P(X=x_i,Y=y_j)=p_{ij},i=1,2,...,n;j=1,2,...,m$
条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵（conditional entropy）H(Y|X)，定义为X给定条件下Y的条件概率分布的熵对X的数学期望
$H(Y|X)=\sum\limits_{i=1}^n p_iH(Y|X=x_i)$
这里， $p_i=P(X=x_i),i=1,2,...,n$

当熵和条件熵中的概率由数据估计（特别是极大似然估计）得到时，所对应的熵与条件熵分别称为经验熵（empirical entropy）和经验条件熵（empirical conditional entropy）。此时，若有0概率，令0log0=0

信息增益（information gain）表示得知特征X的信息而使得类Y的信息不确定性减少的程度
定义5.2（信息增益）特征A对训练数据集D的信息增益 $g (D, A)$ ，定义为集合D的经验熵 $H (D)$ 与特征A给定条件下D的经验条件熵 $H (D ∣ A)$ 之差，即
$g (D, A) = H (D) - H (D ∣ A)$
一般地，熵H(Y)与条件熵H(Y|X)之差称为互信息（mutual information）。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。