0
点赞
收藏
分享

微信扫一扫

深层网络面部表情的特征学习

深层网络面部表情的特征学习_数据



今天跟大家分享的是又一个关于人脸的好文。希望大家加入我们,积极参与讨论,谢谢!





首先说明下今天文章的主要贡献,如下:

  • AU启发,将表情分解成多个面部动作单元,构建特征学习框架去提取特有的特征;
  •  构建不同的感受野构造和子网络学习方案。


其中AU(Action Units)的相关资料,可以参考以下两篇文章:

  • Y.-I. Tian, T. Kanade, J.F. Cohn,Recognizing action units for facial expression analysis, IEEE Trans. Pattern Anal. Mach. Intell. 23 (2) (2001) 97–115.
  • Y. Tong, W. Liao, Q. Ji,Facial action unit recognition by exploiting their
    dynamic and semantic relationships
    , IEEE Trans. Pattern Anal. Mach. Intell.29 (10) (2007) 1683–1699.



简述:


现存大多数面部表情识别的技术,利用现成的特征提取方法去进行分类。为了学习更好的具体表情特征的表达,于是提出了构建一个深层的结构,受AU启发的深层网络(AUDN),其表情可以分解成多个面部动作单元(AUs)。为了充分利用这一影响,于是提出了自动学习:

(1)可提供信息的局部外观变化;

2)优化方法去结合局部变化;

3)最后表情识别的高层表达。

所提出的AUDN由三个连续的模块组成,主要为微动作模式(MAP)表达学习感受野构造group-wise子网络学习。实验最后选择在CK+MNISFEW三个表情数据库进行,学习的特征通过采用线性分类器,在所有数据库中都到达了优异的结果且验证了AUDN的有效性。


我们主要工作:


设计三个模块为了帮助自动学习去学习具体表情特征,如下:

l微动作模式(MAP)表达学习;

l感受野构造;

lGroup-wise子网络学习。


整体架构:


深层网络面部表情的特征学习_感知器_02

现在开始讲解下细节过程

一、微动作模式(MAP)表达学习

面部动作编码(FACS)理论的关键成分是一个观察到的表情可以被分解成若干个局部外观的变化。为了学习高层表情具体特征,应该先编码这些后续使用的局部变化。考虑到AU的局部性,我们从所有的训练表情图像中密集采样大量的小块(即MAP原型),去共同表达由面部表情引起的所有局部变化。


深层网络面部表情的特征学习_感知器_03

假设块的大小为u×u像素,为获得一个过完备表达,设置k>u^2在K-means聚类中,并且学习所有块归一化和白化后的K个质心c^(k)(k=1,2,...,K),其被认为是上面提到的MAP原型。然后每一个MAP原型被作为一个滤波器在整个面部图像中去和其他块卷积,为了计算到这个MAP(滤波器)的“响应”。对于一个l×像素输入图像有t×t个块(其中t=+1-u),每t×t个响应的2D网格用于一个单一滤波器通常被称为一个“特征映射”。最后在卷基层之后我们会得到一个t×t×K维的表达。为了实现平移不变性,我们进一步在相邻处应用最大池化,不相交的p×p个块在每一个t×t映射上去获得最后的MAP表达用于每个表情图像。


二、感受野构造

在这个模型中,我们专注在最大池化层输出(如MAP表达)的感受野构造,每个对应一个通过MAPs描述的局部外观变化的复杂组合。

两个主要问题已被考虑:在每个感受野的特征冗余和特征关联到表情类别。首先,如果特征是高度冗余的,单一的感受野可能无法提供足够的信息对于随后的特征学习。其次,应考虑特征和表情类别之间的相关性,以提高每个感受野的描述。

假定一个MAP的子集S(形成感受野)有m个特征。给出表情标签c,监督信息可以通过测量整体标签相关性来表达:


深层网络面部表情的特征学习_数据_04


如果没有监督,自信息熵可以代替:


深层网络面部表情的特征学习_数据库_05

在接受域内每一对MAP特征之间的整体冗余定义如下:

深层网络面部表情的特征学习_数据_06

在先前的深度网络,感受野通常是手动设计作为局部空间区域,其中的特征是高度冗余。我们认为这种感受野不能提供足够的信息为随后的特征学习。为了探索每个感受野的特征是否应该是更冗余,评估了2个相互冲突的标准:最大化R(S)和最小化R(S)。通过将其与上述信息论的条件结合,分别设计了四个标准。

1  方案的MAP分组及其公式的对应关系


深层网络面部表情的特征学习_感知器_07

为了显示在每个感受野的不同方案下所选择的特征差异,一些局部块对应于MAPs的例子在图3中被可视化。我们可以清楚地发现,“R”方案倾向于在局部空间区域MAPs的分组,而“NR”方案可以分组一些分离的块。“S”很容易选择眼睛或嘴巴的特征,其有更多可提供的信息用于特征表情

深层网络面部表情的特征学习_数据库_08

图3 在不同方案下对应分组特征块的实例:(a)NS+R,(b)NS+NR,(c)S+R,(d)S+NR

三、Group-wise子网络学习

对于多层的group-wise子网络学习,我们研究了2个主流算法:多层感知器(MLP),其是通过充分监督梯度下降训练;深度信念网络(DBN),其包括一个无监督的预训练步骤和一个有监督的微调步骤。

l多层感知器(MLP)

去训练一个MLP,采用小块的随机梯度下降学习所有模型的参数。梯度可以使用反向传播算法计算。

l深度信念网络(DBN)

受限玻尔兹曼机(RBM)可以堆叠建立一个DBN。因为RBM通常是作为一种无监督的“预训练”工具,我们在堆叠RBMs后执行监督“微调”去细化参数。这个程序相当于用权重和堆叠RBMs获得隐层偏置去初始化一个MLP的参数。

四、数据库介绍

lCK+数据库

CK+数据来自123个对象的593个序列,这是一个扩展版本的Cohn-Kanade(CK)数据库(一些例子如图4所示)。7个标准的情绪(愤怒、轻视、厌恶,恐惧,开心,悲伤和惊讶)。


深层网络面部表情的特征学习_感知器_09

图4 来自CK+数据库的脸部表情例子

lMMI数据库

MMI数据库包括来自不同性别且年龄在19到62岁之间的30个对象。在数据集,213个序列已被标记的六种基本表情,在这205个序列是正面拍摄的。我们使用的数据来自所有这205个序列。与CK+对比,MMI更具有挑战性的条件:对象的表情不一致,且许多人佩戴饰品(如眼镜、胡须)。

lSFEW数据库

为了进一步验证,我们评估我们的方法在一个更困难的场景:在野外的面部表情。野外的静态表情(SFEW)数据库,其从电影中提取的(例子见图5)。

深层网络面部表情的特征学习_感知器_10

图5 来自SFEW数据库的脸部表情例子

五、跨数据库评价

作为一种基于学习的方法,它的泛化能力是普遍的担心。对这一点,我们还进行跨数据库实验,即在一个数据库训练特征模型和在另两数据库测试。结果显示在表4,这表明,我们的方法也可以实现非常有前途的结果。具体而言,该模型在实验室数据CK+训练,可以获得相似的性能相比于在SFEW自己数据库中训练。这些结果证明了所提出的方法很强大。

深层网络面部表情的特征学习_数据_11


六、实验结果:

1)       与人工制作特征比较


深层网络面部表情的特征学习_数据_12

2)       与先进方法的比较


深层网络面部表情的特征学习_数据库_13

七、总结

我们提出构建一个深层结构去学习面部表情特征,被称为“AUDN”。通过AU解释的启发,提出了一种计算表达MAP去捕捉由面部表情引起的局部外观变化,并构建自适应感受野去模拟不同MAP的分组。子网络的学习过程可以进一步产生高层的特征,其特别有益于表情的识别。所提出的AUDN在三个人脸表情数据库中包括实验室控制和野生场景下实现了最佳性能。

举报

相关推荐

0 条评论