1. Video Inpainting分类
(1)Video restoration
(2)Object removal
(3)Water-mark removal
2. 问题阐述与算法分析
传统的方法是根据图像数据库中的大量数据进行匹配,计算图像匹配相似度(这其中会消耗大量的算力)。现在效果比较先进的算法是基于GAN的深度学习算法,但是GAN会生成与图像无关的内容。
以上这些方法有一个共同的缺点: 缺失区域是由周围区域或外部图像数据库产生的,这会大大降低Inpainting的效果,而这种缺点我们可以通过利用相邻帧的冗余来解决。
利用相邻帧确实能够弥补一定的不足,但是比较传统的方法是基于patch,通过相邻帧提取patch来计算哪些patch符合视频中确实的部分,但是这样会导致消耗大量的算力.
现在主要包括三个方向:基于Attention、流引导方法和3D卷积网络。这些方法使用不同的技术从相邻帧借用信息。
(1)基于注意力的方法使用加权和从相邻帧检索信息,这可能导致模糊的结果。
(2)流导方法能够产生更高分辨率的结果,但对光流中的误差很敏感。
(3)三维卷积网络具有端到端结构,效率高,但在嵌入区域可能存在空间偏差和分辨率较低。
结合3D卷积网络和流导向方法的思想,此论文一个端到端的3D卷积框架,嵌入时间平移对齐模块,实现准确的时间特征对齐和传播。直接从相邻帧转移特征会导致特征映射上的语义错位。我们的方法引入了TSM的空间对齐版本来解决视频嵌入中的不对齐问题。
3. 模型组成
模型由三部分组成:
(1)ResNet编码器主干,每个瓶颈块的第一卷积层用TSAM卷积代替。TSAM卷积以特征图和光流为输入。它首先转移相邻帧的特征,然后利用光流将偏移的特征扭曲到当前偏移时间戳的正确空间位置。我们使用门控卷积来减轻缺失区域带来的副作用。通过卷积层和s形层,使用原始特征图计算门控信号。最终输出的TSAM Conv是计算的特征和门控信号之间的点积。
(2) skip连接解码器,包含3个门控反褶积层和5个TSAM褶积层,具有选通信号。有两个用于信道缩减的卷积层。由ResNet编码器和skip连接的解码器共同构成了生成器,该生成器通过3D卷积从相邻帧中借用信息[6,7],并借助对抗战损失、感知损失等对剩余缺失的内容产生幻觉,从而对损坏的像素进行补色。
(3)时域补丁GAN鉴别器,实现时空特征跟随地面真值目标分布。
This paper的时域平移对齐模块包括三个步骤:(1)平移相邻帧的特征。(2)利用光流在当前时间戳下,将被偏移的特征扭曲到正确的空间位置。(3)利用有效性掩码对空间对齐的邻域特征与当前帧特征进行聚合。