MATLAB中padarray函数用法-CFANZ编程社区

文章目录

1 个体与集成
- 1.1 集成个体
- 1.2 集成错误率简单分析
2 Boosting
- 2.1 AdaBoost推导
- 2.2 AdaBoost实验
3 Bagging与随机森林
4 结合策略

1 个体与集成

集成学习(ensemble learning)通过构建并结合多个学习器来提升性能
在这里插入图片描述

1.1 集成个体

考虑一个简单的例子，在二分类问题中，假定3个分类器在三个样本中的表现如下图所示，其中√ 表示分类正确，X 号表示分类错误，集成的结果通过投票产生。

在这里插入图片描述
通过上表我们可以发现一个问题，如果每个学习器分类结果都是相同的，那么集成之后跟一个学习器其实差不多，就像是(b)；

但是如果“八仙过海各显神通”，各个学习器在集成之后尽可能的显现了自己的能力，并且集成后的强分类器的性能还得到了提升，那么我们就认为集成的效果是好的，例如(a);

除此之外，如果各个学习器集成到一起并没有使得总的分类性能得到提升，我们认为这个集群起了负作用，例如©。

于是，我们得出结论：集成个体应好而不同

1.2 集成错误率简单分析

考虑二分类问题，假设基分类器的错误率为：

在这里插入图片描述

假设集成通过简单投票法结合𝑇个分类器，若有超过半数的基分类器正确则分类就正确

在这里插入图片描述

假设基分类器的错误率相互独立，则由Hoeffding不等式可得集成的错误率为：

在这里插入图片描述

上式显示，在一定条件下，随着集成分类器数目的增加，集成的错误率将指数级下降，最终趋向于0

注意：

上面的分析有一个关键假设：基学习器的误差相互独立
现实任务中，个体学习器是为解决同一个问题训练出来的，显然不可能互相独立
事实上，个体学习器的“准确性”和“多样性”本身就存在冲突
如何产生“好而不同”的个体学习器是集成学习研究的核心

2 Boosting

在这里插入图片描述

伪代码：

在这里插入图片描述

Boosting族算法最著名的代表是AdaBoost

在这里插入图片描述

2.1 AdaBoost推导

基学习器的线性组合：

在这里插入图片描述
最小化指数损失函数

在这里插入图片描述
若𝐻(𝑥)能令指数损失函数最小化，则上式对𝐻(𝑥)的偏导值为0，即

在这里插入图片描述

若𝐻(𝑥)能令指数损失函数最小化，则上式对𝐻(𝑥)的偏导值为0，即

在这里插入图片描述

𝑠𝑖𝑔𝑛(𝐻(𝑥))达到了贝叶斯最优错误率，说明指数损失函数是分类任务原来0/1损失函数的一致的替代函数。

当基分类器ℎ_𝑡基于分布𝐷_𝑡产生后，该基分类器的权重𝛼𝑡应使得𝛼_tℎ_𝑡最小化指数损失函数

在这里插入图片描述
令指数损失函数的导数为0，即

在获得𝐻𝑡−1之后的样本分布进行调整，使得下一轮的基学习器ℎ𝑡能纠正𝐻𝑡−1的一些错误，理想的ℎ𝑡能纠正全部错误

泰勒展开近似为

在这里插入图片描述
于是，理想的基学习器：

在这里插入图片描述
注意到
是一个常数，令Dt 表示一个分布:

根据数学期望的定义，这等价于

在这里插入图片描述
由𝑓 𝑥 , ℎ 𝑥 ∈ {−1, +1}有:

在这里插入图片描述
则理想的基学习器

在这里插入图片描述

最终的样本分布更新公式
在这里插入图片描述

2.2 AdaBoost实验

在这里插入图片描述

从偏差-方差的角度：降低偏差，可对泛化性能相当弱的学习器构造出很强的集成

3 Bagging与随机森林

3.1 Bagging

Bagging算法伪代码

在这里插入图片描述

Bagging算法特点

时间复杂度低
假定基学习器的计算复杂度为O(m)，采样与投票/平均过程的复杂度为O(s)，则bagging的复杂度大致为T(O(m)+O(s))。由于O(s)很小且T是一个不大的常数，因此训练一个bagging集成与直接使用基学习器的复杂度同阶
可使用包外估计

3.2 包外估计

𝐻^𝑜𝑜𝑏(𝑥)表示对样本𝑥的包外预测，即仅考虑那些未使用样本𝑥训练的基学习器在𝑥上的预测
在这里插入图片描述

Bagging泛化误差的包外估计为：
在这里插入图片描述

3.3 Bagging实验

在这里插入图片描述
从偏差-方差的角度：降低方差，在不剪枝的决策树、神经网络等易受样本影响的学习器上效果更好

3.4 随机森林

随机森林的主要思想是通过随机选择特征和样本创建多个决策树，并使用投票或平均来决定最终的预测结果。

在这里插入图片描述

随机森林的构建过程如下：

随机选取一部分特征：从原始特征集合中随机选取一部分特征作为候选特征。
基于选定特征构建决策树：使用选定的特征和对应的样本创建一颗决策树。决策树的构建过程使用基于信息增益或基尼系数等算法来选择划分特征。
重复步骤1和步骤2：重复上述步骤多次，创建多棵决策树。
进行预测：对于分类问题，每个决策树投票选择最可能的类别；对于回归问题，每个决策树的预测结果取平均值。

在这里插入图片描述

4 结合策略

学习器的组合可以从三个方面带来好处
在这里插入图片描述

4.1 平均法

简单平均法

在这里插入图片描述

加权平均法

在这里插入图片描述
注意：

简单平均法是加权平均法的特例
加权平均法在二十世纪五十年代被广泛使用
集成学习中的各种结合方法都可以看成是加权平均法的变种或特例
加权平均法可认为是集成学习研究的基本出发点
加权平均法未必一定优于简单平均法

4.2 投票法

绝对多数投票法（majority voting）

在这里插入图片描述

相对多数投票法（plurality voting）

在这里插入图片描述

加权投票法（weighted voting）

在这里插入图片描述

4.3 学习法

Stacking是学习法的典型代表

将训练好的所有基模型对训练基进行预测，第j个基模型对第i个训练样本的预测值将作为新的训
练集中第i个样本的第j个特征值，最后基于新的训练集进行训练。同理，预测的过程也要先经过
所有基模型的预测形成新的测试集，最后再对测试集进行预测。

在这里插入图片描述

伪代码

在这里插入图片描述
多响应线性回归(MLR)作为次级学习器的学习算法效果较好