目录
Glocal 论文总结
Introduction
在现实世界的分类应用中,一个实例通常与多个类标签相关联。 例如,一个场景图像可以用多个标签进行注释,一个文档可能属于多个主题,一段音乐可能与不同的流派相关联。 因此,多标签学习近年来引起了很多关注。在图像分类中,可以从图像的底层特征中提取图像的高阶语义信息,并对这些图像进行预定义标签。经过训练的分类模型的质量很大程度上依赖于它的训练数据集。半监督学习与主动学习是解决图像无标记问题的两种主要方法。在资源有限的情况下,主动学习迭代地选择信息量最大的例子来获取它们的标签,并从更新后的训练集中训练分类器,然后用新选择的例子扩充训练集
Problem Definition
当前关于多标签学习的研究试图结合不同程度的标签相关性。 然而,他们主要关注所有实例共享的全局标签相关性。 事实上,一些标签相关性仅由本地数据子集 共享。 例如,“苹果”在美食杂志中与“水果”相关,但在科技杂志中与“数字设备”相关。 以前的研究侧重于利用全局或局部标签相关性。 但是,他们往往只考虑一个,没有同时考虑全局与局部。标签相关性的另一个困难是,通常很难手动指定它们。通常,它们是根据观察到的数据估算的。一些方法假设标签以层次结构的形式相关,并通过层次聚类 或贝叶斯网络结构来学习相应的标签层次结构。但是,这种假定的分层结构在某些应用中可能不存在。还有一些方法是通过训练数据中的标签共现来估计标签相关性,或者等效地构建标签内核。这样可能会导致过拟合。
在多标签学习中,人们在贴标签时可能会忽略他们不知道或不感兴趣的标签,或者遵循某种算法的指导来降低标签成本。因此,训练集中可能缺少一些标签,这是一种弱监督学习。为了解决这个问题,人们试图利用标签相关性来恢复丢失的标签,。例如,当标签相互关联时,可以假设标签相关矩阵和实例标签映射矩阵具有内部线性依赖结构,因此秩较低(即,其秩小于其大小)。在推理过程中鼓励这种低秩假设的一种常见方法是使用核范数正则化器。然而,优化在计算上可能很昂贵。对标签矩阵执行这种低秩假设的更直接的方法是将其近似为两个较小矩阵的乘积。
Related Work
multi-lable learning
In multi-label learning,an instance can be associated with multiple class labels. Let C = C= C={ c 1 , c 2 , . . . c l c1,c2,...c_l c1,c2,...cl}be the set of l l l class labels. we denote the d-dimensional feature vector of an instance by x ∈ X ⊆ R d x\in X\subseteq\mathbb{R}^d x∈X⊆Rd and denote the ground-truth label vector by y ∈ Y ⊆ y\in {Y}\subseteq y∈Y⊆{ − 1 , 1 -1,1 −1,1},where [ y ] j = 1 [y]_j=1 [y]j=1 if x x x is with class label c i c_i ci and − 1 -1 −1 other wise
多标签学习近年来得到了广泛的研究。根据使用的标签关联度,可分为三类 : (i) 一阶; (ii) 二级; (iii) 高阶。对于第一类,不考虑标签相关,将多标签问题转化为多个独立的二进制分类问题。对于第二类,考虑成对标签关系。最后,对于第三类,考虑了对每个标签施加的所有其他标签的影响。同时考虑所有标签相关性的另一种方法是通过学习潜在的标签空间来捕获更高级别的标签语义。通常,这是通过标记矩阵的低秩分解获得的。以前的大多数研究都集中在全局标签相关性上。 但是,有时标签相关性可能仅由本地数据子集共享。 为了缓解这个问题,具有标签局部相关性(MLLOC)的多标签学习算法被提出,它通过嵌入代码来扩展每个实例的特征表示,该代码将实例标签对局部标签相关性的影响进行编码。 MLLOC 在利用局部相关性方面取得了成功。 本论文就是受该算法影响,认为如果同时利用全局和局部相关性,它的性能可能会得到提高。
Low-Rank Modeling in Multi-Label Learning
V
V
V 代表潜在标签捕获更高级别的概念,这些概念比原始标签更紧凑和语义抽象; 而
U
U
U 反映了原始标签如何与潜在标签相关联。
Manifold Regularization
正则化:Regularization,中文翻译过来可以称为正则化,或者是规范化。规则化就是说给损失函数加上一些限制,通过这种规则去规范他们再接下来的循环迭代中,不要自我膨胀。正则化是一种回归的形式,它将系数估计朝零的方向进行约束、调整或缩小。也就是说,正则化可以在学习过程中降低模型复杂度和不稳定程度,从而避免过拟合的危险。
流形正则化:则是正则化的一种方式,能将有监督学习和无监督学习融合成半监督学习。这个正则化的作用是挖掘边缘分布的几何形状。然后将其作为一个增加的正则化项,这个方法的精髓就是用了有监督和无监督样本共同来挖掘这一个数据分布的几何结构
Glocal
Basic model
基本glocal模型对标签矩阵进行低秩分解,得到潜在标签,并学习从特征空间到潜在标签的映射。因此,我们可以得到一个更紧凑和抽象的潜在标签表示,它是稠密的、实值的和低维的。学习从特征空间到潜在标签空间的映射也比学习到原始标签空间(稀疏的二进制值)容易得多和更高维度)。 此外,它直接提供了丢失标签恢复的解决方案。具体来说,我们使用 (1) 将标签矩阵 ~Y 分解为两个低秩矩阵 U 和 U,其中 V 表示潜在标签,U 反映原始标签如何与潜在标签相关联。 矩阵 U 和 V 可以通过最小化重建误差 ∼Y−UV2 F 来获得。为了将实例映射到潜在标签,我们学习了一个矩阵 W ∈ Rd×k。 这个 W 可以通过最小化平方损失 V − WX2 F 获得,其中 X = [x1, . . . , xn] ∈ Rd×n 是包含所有实例的矩阵。 随后,为 x 预测的标签是 sign(f(x)),其中 f(x) = UWx。 令 f = [f1, . . . , fl],其中 fj(x) 是 x 的第 j 个预测标签。 我们可以将所有 x ∈ X 的 f(x) 连接在一起为 F0 = [f(x1), 。 . . , f(xn)] = UWX。 结合低秩矩阵分解的重构误差最小化和学习从实例到潜在标签的线性映射的平方损失最小化,我们得到了基本 GLOCAL 模型的以下优化问题.
Y
∈
R
l
×
n
Y\in \mathbb{R}^{l\times n}
Y∈Rl×n是一个
l
×
n
l\times n
l×n的实际标签矩阵,它的秩是
k
<
l
k<l
k<l,将它分解为两个矩阵
U
∈
R
l
×
k
U\in \mathbb{R}^{l\times k}
U∈Rl×k和
V
∈
R
k
×
n
V\in \mathbb{R}^{k\times n}
V∈Rk×n为了将实例映射到潜在标签,设置
W
∈
R
d
×
k
W\in \mathbb{R}^{d\times k}
W∈Rd×k是一个
d
×
k
d\times k
d×k的矩阵。可通过最小化平方损失得到。
X
∈
R
d
×
n
X\in \mathbb{R}^{d\times n}
X∈Rd×n是一个
d
×
n
d\times n
d×n是所有实例矩阵。
U
U
U 反映原始标签如何与潜在标签相关联。
V
V
V 表示潜在标签
∣
∣
Π
Ω
(
Y
−
U
V
)
∣
∣
|| \Pi_{\Omega}(Y-UV)||
∣∣ΠΩ(Y−UV)∣∣是最小化重建误差
R
(
U
,
V
,
W
)
R(U,V,W)
R(U,V,W)是正则化子,
λ
,
λ
2
λ,λ_2
λ,λ2是折衷参数当平方损失用于问题(2)时,它可以被任何可微损失函数代替。
Global and Local Manifold Regularizers
因为全局和本地标签相关性可能共存引入标签流形正则化器来将两者结合起来。具体来说,两个标签的正相关越多,对应的分类器输出应该越接近,反之亦然。 换句话说,正相关标签会鼓励它们对应的分类器输出彼此相似,而负相关标签会推动对应的输出方向相反。
S
0
S_0
S0是
l
×
l
l\times l
l×l的全局标签相关矩阵,
令
f
=
[
f
1
,
.
.
.
,
f
l
]
f = [f_1, . . . , f_l]
f=[f1,...,fl],其中
f
j
(
x
)
f_j(x)
fj(x) 是
x
x
x 的第
j
j
j 个预测标签。
f
(
x
)
=
U
W
T
X
f(x)=UW^TX
f(x)=UWTX ,可以将所有
x
∈
X
x ∈ X
x∈X 的为
F
0
=
[
f
(
x
1
)
,
。
.
.
,
f
(
x
n
)
]
=
U
W
X
T
F_0 = [f(x_1), 。 . . , f(x_n)] = UWX^T
F0=[f(x1),。..,f(xn)]=UWXT。
设
D
0
D_0
D0为对角矩阵,
1
1
1为单位矩阵,
L
0
=
D
0
−
S
0
L_0=D_0-S_0
L0=D0−S0是
S
0
S_0
S0的拉普拉斯矩阵,(3)的正则化因子也因此可以写作
t
r
(
F
0
T
L
0
F
0
)
tr({F_0} ^TL_0F_0)
tr(F0TL0F0),并将其最小化
类似全局,局部标签相关性可得到
t
r
(
F
m
T
L
m
F
m
)
tr({F_m} ^TL_mF_m)
tr(FmTLmFm),并将其最小化,,
λ
,
λ
2
,
λ
3
,
λ
4
λ,λ_2,λ_3,λ_4
λ,λ2,λ3,λ4是权衡参数。
根据一些公式变形,(4)可以写成:
Learning Label Correlations
为了避免标签在训练数据中可能只有很少的正例,在本文中,没有指定任何相关度量或标记相关矩阵,而是直接学习拉普拉斯矩阵。注意,拉普拉斯矩阵是对称正定的。因此,对于
m
∈
m∈
m∈{
1
,
…
g
1,…g
1,…g}我们将
L
m
L_m
Lm分解为
Z
m
Z
Z_mZ
ZmZ,其中
Z
m
∈
R
l
×
k
Z_m∈\mathbb{R}^{l×k}
Zm∈Rl×k.为了简单起见,将
k
k
k设置为潜在表示
V
V
V的维数。结果,学习拉普拉斯矩阵被转换为学习
Z
=
Z=
Z={
Z
1
,
…
…
,
Z
g
Z_1,……, Z_g
Z1,……,Zg} 。注意优化。
Z
m
Z_m
Zm可能导致平凡解
Z
m
=
0
Z_m = 0
Zm=0。为了避免这个问题,我们增加了一个约束,即每个
Z
m
Z
Z_mZ
ZmZ中的对角元素是1。这也使得我们能够获得
L
m
L_m
Lm的归一化拉普拉斯矩阵 。
为了解决(6),提出算法1:
通过交替最小化(算法 1)来解决,这使我们能够迭代地调整变量以找到令人满意的解决方案。在每次迭代中,我们使用梯度下降更新 {Z,U,V,W} 中的一个变量,并修复其他变量。然后将整个优化问题简化为几个更容易解决的更简单的子问题。
Experiments
数据集:Arts, Business, Computers, Education, En-tertainment, Health, Recreation, Reference, Science, Social Society,Corel5k3 and Image4
评价指标:
排名损失(Rkl):负面标签排名高于正面标签的分数。
ROC 曲线下的平均面积 (Auc):正实例排名高于一个负例,对所有标签进行平均所得。
覆盖率(Cvg):计算需要多少步才能将预测的标签排名向下移动以覆盖实例的所有正标签。
平均精度 (Ap):这是排名高于特定正标签的正标签的平均分数。
Learning with Full Labels
1.在完整标签数据集(既不考虑缺失标签的情况下):在大多数数据集上,GLOCAL是所有测量方法中最好的两种方法之一。GLOCAL的成功是由于同时优化了标签矩阵的低秩分解、到潜在标签的特征空间映射,以及编码全局和局部标签相关性的拉普拉斯矩阵。通过标签矩阵的低秩分解,我们得到了更紧凑、信息更丰富的潜在标签。与稀疏的、二值的、高维的原始标签空间相比,从特征空间到稠密的、实值的、低维的潜在标签空间的映射更容易学习。在少数族裔标签的存在下尤其如此,几乎没有正面的例子。此外,全球标签流形提供了标签如何作为一个整体相互关联的信息,并有助于学习少数民族标签。如果少数标签与其他标签正相关(或负相关),我们可以鼓励其标签分类器输出与其他标签的输出更相似(或不同)。本地标签流形还允许标签分类器的本地自适应。拉普拉斯矩阵的学习可以发现最适合全局和局部数据子集的标签相关性,并避免了手动指定标签相关性这一通常很难完成的任务。
Learning with Missing Labels
2.在缺失标签数据集:GLOCAL在不同的ρ下对缺失标签恢复和测试标签预测的表现最好。其优越性的原因是其潜在标签的联合学习、实例标签映射,以及利用全局和局部标签相关性。此外,先恢复缺失的训练标签,然后分类的两阶段方法在预测测试集标签方面并不有效。这是因为MAXIDE会在标签恢复过程中导致错误,然后会传播到分类过程。
Conclusion
GLOCAL,通过学习潜在标签表示和优化标签流形,同时恢复丢失的标签、训练分类器并利用全局和局部标签相关性。与之前的工作相比,它是第一个同时利用全局和局部标签相关性的工作,它直接学习拉普拉斯矩阵,而不需要任何其他关于标签相关性的先验知识。此外,GLOCAL 为全标签和缺失标签多标签学习提供了统一的解决方案。实验结果表明,我们的方法在使用完整标签和缺失标签的学习方面优于最先进的多标签学习方法。
Matlab 学习笔记
学习笔记