0
点赞
收藏
分享

微信扫一扫

机器学习.周志华《13 半监督学习 》


思维导图:

机器学习.周志华《13 半监督学习 》_数据


半监督学习SSL的3种假设:

(1) 平滑假设(Smoothness Assumption) 

位于稠密数据区域的两个距离很近的样例的类标签相似,当两个样例北稀疏区域分开时,它们的类标签趋于不同。 

(2) 聚类假设(Cluster Assumption) 
当两个样例位于同一聚类簇时,它们在很大的概率在有相同的类标签。这个假设的等价定义为低密度分类假设(Low Density Separation Assumption),即分类决策边界应该穿过稀疏数据区域,而避免将稠密数据区域的样例划分到决策边界两侧。 
(3) 流形假设(Manifold Assumption) 
将高维数据嵌入到低维流形中,当两个样例位于低维流形中的一个小局部邻域内时,它们具有相似的类标签。 

许多实验研究表明当SSL不满足这些假设或者模型假设不正确时,无类标签的样例不仅不能对学习性能起到改进作用,反而会恶化学习性能,导致SSL的性能下降。但是,也有实验表明,在一些特殊的情况下,即使模型假设正确,无类标签的样例也有可能损害学习性能。

假设的本质:相似的样本拥有相似的输出。

                                

机器学习.周志华《13 半监督学习 》_结点_02

未标记样本

监督学习:训练样本包含标记信息的学习任务,例如:常见的分类与回归算法;

无监督学习:训练样本不包含标记信息的学习任务,例如:聚类算法。

半监督学习(semi-supervised learning):训练集同时包含有标记样本数据和未标记样本数据。(让学习过程不依赖外界的咨询交互,自动利用未标记样本所包含的分布信息的方法便是)

主动学习(active learning):使用尽量少的/有价值的咨询来获得更好的性能。主动学习需要与外界进行交互/查询/打标,其本质上仍然属于一种监督学习。事实上,无标记样本虽未包含标记信息,但它们与有标记样本一样都是从总体中独立同分布采样得到,因此它们所包含的数据分布信息对学习器的训练大有裨益。

半监督学习(2类):

  1. 纯半监督学习:假定训练数据集中的未标记数据并非待预测数据
  2. 直推学习:假定学习过程中的未标记数据就是待预测数据

主动学习、纯半监督学习以及直推学习三者的概念如下图所示:

机器学习.周志华《13 半监督学习 》_类簇_03

生成式方法

生成式方法(generative methods)是基于生成式模型的方法,即先对联合分布P(x,c)建模,从而进一步求解 P(c | x),此类方法假定样本数据服从一个潜在的分布,因此需要充分可靠的先验知识。例如:前面已经接触到的贝叶斯分类器与高斯混合聚类,都属于生成式模型。现假定总体是一个高斯混合分布,即由多个高斯分布组合形成,从而一个子高斯分布就代表一个类簇(类别)。高斯混合分布的概率密度函数如下所示:

机器学习.周志华《13 半监督学习 》_数据_04

不失一般性,假设类簇与真实的类别按照顺序一一对应,即第i个类簇对应第i个高斯混合成分。与高斯混合聚类类似地,这里的主要任务也是估计出各个高斯混合成分的参数以及混合系数,不同的是:对于有标记样本,不再是可能属于每一个类簇,而是只能属于真实类标对应的特定类簇。

机器学习.周志华《13 半监督学习 》_类簇_05

直观上来看,基于半监督的高斯混合模型有机地整合了贝叶斯分类器与高斯混合聚类的核心思想,有效地利用了未标记样本数据隐含的分布信息,从而使得参数的估计更加准确。

下面是通过EM算法求解高斯混合模型参数的迭代更新过程:

机器学习.周志华《13 半监督学习 》_类簇_06

当参数迭代更新收敛后,对于待预测样本x,便可以像贝叶斯分类器那样计算出样本属于每个类簇的后验概率,接着找出概率最大的即可:

机器学习.周志华《13 半监督学习 》_类簇_07

总结:

基于生成式模型的方法十分依赖于对潜在数据分布的假设,即假设的分布要能和真实分布相吻合,否则利用未标记的样本数据反倒会在错误的道路上渐行渐远,从而降低学习器的泛化性能。因此,此类方法要求极强的领域知识。

半监督SVM

监督学习中:

SVM试图找到一个划分超平面,使得两侧支持向量之间的间隔最大,即“最大划分间隔”思想。

对于半监督学习:

S3VM考虑超平面需穿过数据低密度的区域;

TSVM:

1、半监督支持向量机中的最著名代表;

2、核心思想:尝试为未标记样本找到合适的标记指派,使得超平面划分后的间隔最大化。

3、采用局部搜索的策略来进行迭代求解,即首先使用有标记样本集训练出一个初始SVM,接着使用该学习器对未标记样本进行打标,这样所有样本都有了标记,并基于这些有标记的样本重新训练SVM,之后再寻找易出错样本不断调整。

机器学习.周志华《13 半监督学习 》_数据_08

4、整个算法流程:





机器学习.周志华《13 半监督学习 》_结点_09



图半监督学习

  • 给定一个数据集,我们可将其映射为一个图,数据集中每个样本对应于图中一个结点,若两个样本之间的相似度很高(或相关性很强),则对应的结点之间存在一条边,边的“强度”(strength)正比于样本之间的相似度(或相关性)。我们可将有标记样本所对应的结点想象为染过色,而未标记样本所对应的结点尚未染色。于是,半监督学习就对应于“颜色”在图上扩散或传播的过程。由于一个图对应了一个矩阵,这就使得我们能基于矩阵运算来进行半监督学习算法的推导与分析。
  • 图半监督学习方法在概念上相当清晰,且易于通过对所涉矩阵运算的分析来探索算法性质。但此类算法的缺陷也相当明显。首先是在存储开销上,若样本数为O(m),则算法中所设计的矩阵规模为O(m^2),这使得此类算法很难直接处理大规模数据;另一方面,由于构图过程仅能考虑训练样本集,难以判知新样本在图中的位置,因此,在接收新样本时,或是将其加入原数据集对图进行重构并重新进行标记传播,或是需引入额外的预测机制,例如将 Dl 和经标记传播后得到标记的 Du 合并作为训练集,另外训练一个学习器例如支持向量机来对新样本进行预测。
  • 基于图的方法的实质是标签传播(Label Propagation),基于流形假设,根据样例之间的几何结构构造图(Graph),用图的结点表示样例,利用图上的邻接关系将类标签从有标签的样本向无标签的样例传播。 
    如图5所示,基于图的方法的基本训练过程为: 
  • 机器学习.周志华《13 半监督学习 》_数据_10

  •  
  • (1) 选择合适的距离函数计算样例之间的距离。 
    可选择的距离函数有欧式距离、曼哈顿距离、切比雪夫距离、明氏距离、马氏距离和归一化欧式距离。 
    (2) 根据计算得到的距离选择合适的连接方式,将样例用边连接,构造连接图。 
    构造的连接图分为稠密图和稀疏图,稠密图的典型代表是全连接图,如图6所示,任意结点之间都有边连接;稀疏图如图7所示,按照某种准则将距离最近的某几个结点连接,包括KNN图、指数权图等。 

  • 机器学习.周志华《13 半监督学习 》_数据_11

  •              
  • 图6 稠密图示意 


机器学习.周志华《13 半监督学习 》_类簇_12

   图7 稀疏图示意 

 

(3) 用核函数给图的连接边赋予权值,用权值反映这个边所连接的两个结点之间的相似程度。 

当两个结点距离很近时,连接这两个结点的边的权值就很大,这两个样例有相同的类标签的概率就很大;当距离很远时,对应权值很小,这两个样例有相同类标签的概率就很小。常用的核函数有线性核、多项式核、高斯核等。 

(4) 根据学习目标确定优化问题并求解。 

半监督分类问题的目标就是找到使目标函数最小的类标签的预测函数f(x),这个问题可以看做是一个由损失函数和正则化组成的复合目标函数的正则化风险最小化问题,目标函数一般表示为 


机器学习.周志华《13 半监督学习 》_类簇_13

  式中损失函数V(y,f(x))用来惩罚样例的预测类标签不等于给定类标签的情况,正则化函数Ω(f)用来保证预测函数的平滑性,使近邻点的预测类标签相同。根据具体的学习任务可以选择不同的损失函数和正则化函数,如损失函数可以选取平方误差函数、绝对值函数、对数函数等。一般将损失函数和正则化函数复制到希尔伯特空间,用核学习方法求解学习机。



基于分歧的方法

概念:通过多个学习器之间的分歧(disagreement)/多样性(diversity)来利用未标记样本数据;

经典代表:协同训练。

协同训练:最初是针对于多视图(multi-view)数据而设计的,多视图数据指的是样本对象具有多个属性集,每个属性集则对应一个试图。例如:电影数据中就包含画面类属性和声音类属性,这样画面类属性的集合就对应着一个视图。首先引入两个关于视图的重要性质:

相容性:即使用单个视图数据训练出的学习器的输出空间是一致的。例如都是{好,坏}、{+1,-1}等。 
互补性:即不同视图所提供的信息是互补/相辅相成的,实质上这里体现的就是集成学习的思想。

协同训练正是很好地利用了多视图数据的“相容互补性”。

基本思想:首先基于有标记样本数据在每个视图上都训练一个初始分类器,然后让每个分类器去挑选分类置信度最高的样本并赋予标记,并将带有伪标记的样本数据传给另一个分类器去学习,从而共同进步。



机器学习.周志华《13 半监督学习 》_类簇_14



算法流程

机器学习.周志华《13 半监督学习 》_结点_15

半监督聚类

前面提到的几种方法都是借助无标记样本数据来辅助监督学习的训练过程,从而使得学习更加充分/泛化性能得到提升;

半监督聚类则是借助已有的监督信息来辅助聚类的过程。一般而言,监督信息大致有两种类型:

必连与勿连约束:必连指的是两个样本必须在同一个类簇,勿连则是必不在同一个类簇。 
标记信息:少量的样本带有真实的标记。

两种基于半监督的K-Means聚类算法:

基本思想:对于带有约束关系的k-均值算法,在迭代过程中对每个样本划分类簇时,需要检测当前划分是否满足约束关系,若不满足则会将该样本划分到距离次小对应的类簇中,再继续检测是否满足约束关系,直到完成所有样本的划分。算法流程如下图所示:

  1. 第一种是数据集包含一些必连与勿连关系;


机器学习.周志华《13 半监督学习 》_数据_16



  1. 第二则是包含少量带有标记的样本。

对于带有少量标记样本的k-均值算法,则可以利用这些有标记样本进行类中心的指定,同时在对样本进行划分时,不需要改变这些有标记样本的簇隶属关系,直接将其划分到对应类簇即可。

机器学习.周志华《13 半监督学习 》_类簇_17

-----------------------------------------------------------------------------------------------------------*-*----

机器学习.周志华《13 半监督学习 》_数据_18

---------------------------------------------------------------------------------------------------------------…^-^……---------


举报

相关推荐

0 条评论