A Key Volume Mining Deep Framework for Action Recognition

Abstract.

近年来，深度学习方法在视频动作识别方面取得了显著的进展。大多数现有的deep框架都对每个帧（即时空视频剪辑）进行同等处理，并直接将视频标签分配给从中采样的所有帧。然而，在视频中，辨别动作可能在少数关键帧中稀疏地发生，并且大多数其他帧与标记的动作类别无关。大量不相关的训练会影响表现。
为了解决这个问题，我们提出了一个关键帧挖掘深度框架来识别关键帧并同时进行分类。具体地说，我们的框架是以一种与随机梯度下降（SGD）的前向和后向阶段相结合的方法进行优化的。在转发过程中，我们的网络为每个动作类挖掘关键帧。在反向过程中，它利用这些挖掘出的关键帧更新网络参数。此外，我们还提出了“随机出”的多模式关键帧模型，以及一种有效而简单的“无监督关键帧建议”方法，用于高质量的体积采样。实验表明，通过挖掘关键帧可以显著提高动作识别性能，并在HMDB51和UCF101上取得了最新的性能（93.1%）。

Introduction

我们认为，视频中的动作识别实际上是一个弱监督学习问题，因为只有视频级别的标签是可用的，因此有必要找出关键的帧以便更好地分类。在这项工作中，我们提出了一个统一的深度学习框架，可以同时识别有区别的关键帧，并训练分类器免受无关帧的伤害。在SGD训练中，两个目标通过EM-like循环交替优化。具体来说，在前向过程中，我们将一袋帧送入我们的网络，然后根据响应矩阵挖掘每个动作类的关键帧；在后向过程中，我们利用这些关键帧更新网络参数。

Related Work

Multiple instance learning
多实例学习。我们的工作与多实例学习（MIL）[1]具有相似的精神。根据MIL理论，一个训练样本是一包实例。一个正的包包含至少一个正的实例，而一个负的包只包含负的实例。在目标检测方面，最近的研究[19,20,8]采用MIL框架对每一类的判别对象（部分）进行挖掘，同时进行分类和定位。

Our Approach

在这里插入图片描述
Key V olume Mining Deep Framework
遵循多实例学习惯例[1]，我们的训练样本是帧（实例）袋。关键帧挖掘的基本假设是一个包至少包含一个关键帧。假设视频的关键体积比为r，则K大小的包包含至少一个关键体积的概率为1–（1–r）K。随着K的增加，该概率向1增长。给定一个中等质量的分类器，关键量往往有较高的响应分数，因此我们可以根据这些分数进行关键量挖掘。利用这些选定的关键帧更新网络参数，可以实现针对每个动作类的判别帧的分类器。

我们学习了N个体积级别的二进制分类器，其中N是类别数。它们中的每一个只对一个特定类别的关键帧做出响应，而拒绝其他类别的关键帧和所有不相关的帧。如图3所示，我们的深部神经网络接收一袋3D体积作为输入。这些帧通过共享CNN模块帧积，然后传递给N个logistic回归（sigmoid）以得到得分矩阵S。形式上，我们将得分矩阵表示为：

在这里插入图片描述

基于此响应矩阵，我们为每个行动类别挖掘关键帧。给定一个标签为Y的包，对于分类器n ！=Y，所有帧的响应都很低，因此我们可以最小化包中的最大响应；对于分类器n=Y，我们希望关键帧具有较高的响应。这种损失可以表述为
在这里插入图片描述

最大输出在[6]中定义。它输出输入向量内的最大值，因此是一个确定的运算符。为了避免收敛到占主导地位的关键体积形式，我们提出了随机输出。

随机输出解决了最大输出的缺点。通过引入随机性，随机输出选择具有更高概率的更高响应体积。这种机制允许我们选择其他较小的模式，并以非常低的响应拒绝无关或噪声的音量

Unsupervised Key Volume Proposal

关键容量挖掘的基本假设是一个包至少包含一个具有高概率的关键容量。为了得到更高的概率1－（1－r）K，我们可以使用更大的K或提高关键体积比r。K受GPU内存和计算容量的限制，不能太大。在我们的实验中，通常K=6。因此，提高r值对关键体挖掘的成功具有重要意义
有鉴于此，我们研究了所选关键帧的共同特征，发现所选关键帧与演员的动作高度相关。

在这项工作中，我们简单地将边缘盒方法[37]扩展到3D视频，因为它的分数函数鼓励高强度的运动边界。在这项工作中，我们的主要目的是证明良好的无监督关键帧建议将有利于拟议的深层框架。

我们将一个方案表示为元组（frame id，box id），表示从frame id开始的3D帧，其空间位置由box-id指定。如上所述，每个帧在时间维度上扩展T个连续的帧，其中T是固定的时间大小。提出的算法描述如下：
1。生成以滑动窗口方式覆盖各种大小和纵横比的边界框集。此集合由同一视频中的所有帧共享。
2。对所有帧中所有包围盒的光流图像应用边缘盒评分功能。
3。使用沿时间维度的1D滑动窗口为每个边界框id计算平均分数。滑动窗口的长度设置为T=10。
4。对每个边界框id执行临时非最大抑制。最后，我们得到一个候选方案池。
在这里插入图片描述
在图4中，我们可视化了采样帧上两个动作的前三个得分边界框。如我们所见，这些建议主要集中在运动区域，因为它们显示出强烈的运动边界。请注意，一个关键的体积建议可以是一个演员的一部分，一个互动对象或整个移动的人。

Implementation Details

我们使用一个改进的并行Caffe[12]来训练我们的深层神经网络，具体来说，4个Titan gpu用于并行计算。我们使用SGD优化我们的神经网络，每个小批量包含64个视频（包），288帧（K=6）。我们使用初始学习率0.001分对于RGB流和更大的学习速率0.005分对于溪流。我们将提出的深度框架分为三个阶段进行训练，分别迭代12000、8000和5000次，并在进入下一阶段时将学习率缩减1/10。

遵循先前作品的相同设置[23，28，17]。在测试中，对两个流的预测分数进行加权平均（RGB流为1/3，运动流为2/3），以生成体积级预测。然后，我们平均聚合250个（等于在25个时间位置进行10个视图测试时的帧数[23]）采样帧的预测，以获得视频级预测。

Experiments

4.1. Key V olume Mining Benefit Classification

在本小节中，我们将验证学习关键帧的有效性。首先，我们重新实现两个流[23，33]作品，其网络结构如图3顶部所示。该基线随机抽取时空数据，并直接将视频标签传输到这些采样数据上。我们的关键帧挖掘网络建立在这个基线之上，但是使用帧袋作为输入，并为关键帧挖掘添加max/随机out操作。为了进行公平的比较，我们的框架和基线框架都使用相同的批处理大小，并在相同的迭代中进行训练。如表1的实验1）和实验4）所示，关键体积挖掘显著提高了rgb和流流的性能（分别为2.0%和2.5%）

在这里插入图片描述

4.2. Random V olume Sampling Comparison

在这一小节中，我们比较了不同的袋成分体积采样策略。如前所述，帧是3D视频剪辑，可以表示为元组（帧id，bbox）。比较了三种不同的体采样策略：（1）帧id固定的随机空间采样；（2）空间边界盒固定的随机时间采样；（3）关节空间的随机时空采样。将实验2）-3）与表1）中的1）进行比较，我们发现流同时受益于随机空间采样和随机时间采样。相反，rgb流只支持随机空间采样。这是因为rgb图像在短视频中看起来很相似，随机的时间采样将导致一个包关闭相同的帧，这使得很难确保每个包至少有一个关键帧。表1中的实验4）表明，随机时空采样比约束采样策略产生更好的性能。

4.3. Unsupervised Key Volume Proposal

在第3.3节中，我们设计了一种无监督的关键帧建议方法，以生成更可能包含关键帧的包。对比实验7）和表1中的4），我们发现对于rgb和流，无监督关键体积方案明显优于随机抽样

4.5. Stochastic Out vs. Max Out

正如第3.2节中所分析的，随机输出具有从多种模式中挖掘关键数据量的能力。在此，我们在两种情况下实验验证了该分析：使用随机out或使用max out来识别关键量。如表1中的实验9）所示，对于关键体积挖掘，max out不如随机out。为了观察随机输出和最大输出之间的差异，我们进行了训练测试并显示了响应曲线。图5比较了同一视频上两种策略的响应曲线。为了综合出空间方差，我们平均5个视图测试分数作为框架分数，然后沿时间维度绘制响应曲线。如我们所见，在各种模式的关键量上，随机输出响应很高，而在一个主要的关键量类型上，最大输出响应很高。

在这里插入图片描述