Learning Self-Supervised Space-Time CNN for Fast Video Style Transfer
摘要
近年来,随着深度卷积神经网络(CNN)的发展,图像风格转移已经取得了显著的进展。直接将图像风格转换算法单一地应用于视频的每一帧往往会导致结果的闪烁和不稳定。在这项工作中,我们提出了一种基于自监督时空卷积神经网络(CNN)的在线视频风格转换方法,称为VTNet,该方法从几乎无限的无标签数据中进行端到端训练,来实时产生时间上一致的风格化视频。具体地说,我们的VTNet将参考图像的样式传输到源视频帧,源视频帧是由时间预测分支和样式化分支组成。时间预测分支用于捕获可区分的时空特征以实现时间一致性,并以对抗性的方式从未标记的视频数据中进行预训练。样式化分支用于在时间预测分支的指导下将样式图像传输到视频帧,以确保时间一致性。**为了指导VTNet的训练,我们引入了风格一致性损失网络(SCNet),它综合了内容损失、风格损失和新设计的连贯性损失。这些损失是基于从预先训练的VGG-16网络中提取的高级特征来计算的。内容损失用于保留输入帧的高层抽象内容,样式损失从样式图像中引入新的颜色和图案。我们没有使用光流来显式校正风格化视频帧,而是设计了连贯性损失,使风格化视频继承了源视频的动态和运动模式,从而消除了时间闪烁。**对各种风格进行了广泛的主观和客观评价,结果表明,该方法具有较高的效率,取得了良好的效果。
结论
本文提出了一种基于自监督时空CNN的在线视频风格转换方法VTNet,VTNet的设计目的是将参考图像的风格传输到源视频帧,集成以对抗性方式预先训练的时间预测分支。为了指导VTNet的训练,我们引入了SCNet,它包括了内容损失、风格损失和连贯性损失。我们没有使用光流来显式校正风格化视频,而是提出了一种连贯性损失来鼓励风格化视频继承源视频的动机和运动模式来消除时间闪烁。大量的主客观实验表明,该方法在现代GPU上实现了高效率的实时运行,取得了良好的效果。
方法
1. Video Transfer Net (VTNet)
VTNet由两个分支组成:时间预测分支和样式化分支。时间预测分支是基于3DResNet-18网络构建的,用于提取可区分的时空特征,然后由三个2D反卷积层对多尺度预测特征进行编码。
同时,样式化分支由七个二维卷积层、两个二维反卷积层和五个残差块组成。此外,时间预测分支中的最后三个特征映射被连接到样式化分支,为风格转移中的时间相关特征提供时空特征。
时间预测分支:
从未标记的视频数据中以对抗性的方式预先训练时间预测分支。具体地说,将时间预测分支设置为生成器G,并构造一个鉴别器Dt来区分由G生成的视频帧和真实视频帧。通过这种方式,时间预测分支学习捕获视频序列的内容和动态。
样式化分支:
被设计为将图像的样式传递到每个视频帧,同时保持时间连贯性。为此,将时间预测分支中的最后三个特征图附加到风格化分支中的前三个层,以提供描述性的时间指导。之后,利用五个残差块和两个反卷积层来产生高质量的风格化视频帧,它同时捕获源帧的内容,整合来自样式图像的新的颜色和图案。
2. Style-Coherence Loss Net (SCNet)
为了给VTNet训练提供指导,我们定义了三种类型的损失,即风格损失Lsty、内容损失Lcon和连贯性损失Lcoh,这些损耗项由SCNet根据从VGG-16网络中提取的高级感知特征在ImageNet上预先训练来计算。
Coherence loss 连贯性损失:
式:为要训练的网络提供损失计算,指导网络的特点是要擅长提取有用的目标特征,从而可以根据损失函数的不同,训练出不同目标的网络。