集成学习的思路

通过构造多个基分类器（base classifier）将这些基分类器的分类结果进行集成来得到最终的预测结果
模型集成的方法基于下面的直觉：
- 多个模型的总和决策好于单个模型
- 多个弱分类器的结果至少和一个强分类器表现相同
- 多个强分类器的结果至少和一个基分类器表现相同

多个分类器的结果一定好么

通过多个基分类器进行分类的最常用方法是 投票法
- 对于离散的输出结果，可以通过计数的方式来得到最终的分类结果，例如一个二分类的数据集，label=0/1，构造了 5 个基分类器，对于某个样本有三个基分类器的输出结果是 1，两个是 0 那么这个时候，总和来看结果就应该是 1
- 对于连续型的输出结果，可以将他们的结果进行平均来得到多个基分类器的最终结果

核心思想：更多数据就应该有更好的表现；那么如何通过固定的数据集来产生更多的数据呢？
通过随机抽样和替换来产生多个不同的数据集
将原始数据集进行有放回的随机采样 $N$ 次，得到了 $N$ 个数据集，针对这些数据集一共产生 $N$ 个不同的基分类器
对于这 $N$ 个分类器，让他们采用投票法来决定最终的分类结果
但是装袋法有个问题，那就是有些样本可能永远不会被用到。因为 $N$ 个样本，每个样本每次被取到的概率为 $\frac{1}{N}$ 那么一共取 $N$ 次没取到的概率为 $(1-\frac{1}{N})^N$ 这个值在 $N$ 很大的时候的极限值 $\approx0.37$
装袋法的特点：
- 这是一种基于采样和投票法的集成方法（instance manipulation）
- 多个单独的基分类器可以同步并行进行计算
- 可以有效的克服数据集中的噪声数据
- 通常情况下比单个基分类器的结果好的多，但也存在比单个基分类器效果差的情况

随机森林依赖的单个分类器是决策树，但是这个决策树和之前的决策树略有不同
在随机森林中使用的单个决策树都只选用一部分特征进行树的建立。也就是说随机森林中的树使用的特征空间不是全部的特征空间
- 例如，采用一个固定的比例 $\tau$ 来选择每个决策树的特征空间大小
- 随机森林中的每棵树的建立都比一个单独的决策树要简单和快速；但是这种方法增加了模型的 variance
随机森林中的每棵树都使用了不同的训练集（using different bagged training dataset)
最后通过投票的方法得到最终的结果。
这样操作的思想是：尽可能减少任意两棵树之间的关联
随机森林的超参数：
- 森林中树的个数 $B$
- 每个特征子集的尺寸，随着尺寸的增加，分类器的能力和相关性都增加了 ( $\lfloor log_2|F|+1\rfloor$ ) 因为随机森林中的每棵树使用的特征越多，其与森林中其他树的特征重合度就可能越高，导致产生的随机数相似度越大
- 可解释性：单个实例预测背后的逻辑可以通过多棵随机树共同决定
随机森林的特点：
- 随机森林非常强大，可以高效地进行构建
- 可以并行的进行
- 对过拟合有很强的鲁棒性
- 可解释性被牺牲了一部分，因为每个树的特征都是特征集合中随机选取的一部分

adaptive boosting 自适应增强算法；是一种顺序的集成方法（随机森林和 Bagging 都属于并行的集成算法）
AdaBoost 的基本思想：
- 有 $T$ 个基分类器: $C_1,C_2,...,C_i,...,C_T$
- 训练集表示为 ${x_j,y_j|j=1,2,..,N\}$
- 初始化每个样本的权重都为 $\frac{1}{N}$ ，即： $\{w_j^{(1)}=\frac{1}{N}|j=1,2,...,N\}$

在这里插入图片描述