BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation and Alignment
BasicVSR++:通过增强传播和对齐提高视频超分辨率
论文:https://arxiv.org/pdf/2104.13371.pdf
代码:GitHub - open-mmlab/mmediting: OpenMMLab Image and Video Editing Toolbox
本篇笔记主要对整篇论文从头到尾进行阅读分析,本文内容有点多,主要是对不同部分的总结以及图例解释,如果只对模型原理部分有兴趣,可直接观看第四部分。
本文为了详细说明各图、公式在各组件中的情况,所以对原文图片、公式做了切割和拼接,保证该内容是在该组件中生效的。
目录
(1)摘要
BasicVSR++是在BasicVSR基础上优化的,(BasicVSR没看的,可以查看我Blog,其中IconVSR提高了0.31dB),BasicVSR++在其基础组件上进一步优化,在传播组件中使用二阶网格传播,对齐组件中使用光流引导可变形对齐方案,可以更好的利用未对齐视频帧中的时空信息,其中BasicVSR++相比较BasicVSR提高了0.82dB。
(2)引言
BasicVSR中存在限制,在遮挡区域以及复杂区域往往恢复效果一般,所以为了解决这样的问题,本文设计BasicVSR++,在传播和对齐组件上进行优化。提出二阶网格传播以及光流引导可变形对齐。
(2.1)二阶网格传播
(2.2)光流引导可变形
(2.3)对比
结果没啥好说的,就在BasicVSR论文中的对比加上了BasicVSR++
(3)相关工作
(4)本文方法介绍
(4.1)二阶网格传播
二阶网格传播如上图所示,放宽一阶马尔可夫链的限制(也就是子节点只与父节点状态有关系,与祖父节点无关),变为二阶马尔可夫,这就是二阶的由来,上图中红线就是通过子节点与祖父节点之间连接进行信息传递。并且允许信息以网格的形式进行传播,正向传播中每个i时刻的结果可以传递到反向传播的i时刻,进行信息交互。这种方式,不但可以使信息得到多次提炼,而且可以对该模块未获取到的信息起到补充作用。
(4.2)基于光流引导的可变形对齐
本小节主要介绍本文的另一个重要点:对齐方式。使用DCN对齐方式,可变形对齐相比光流的优势在于偏移多样性。然而,可变形对齐模块很难训练。训练的不稳定常常导致补偿溢出,从而影响性能。为了在克服不稳定性的同时利用偏移分量,由于可变形对齐和光流对齐之间存在着很强的关系,本文提出利用光流来引导可变形对齐。如下图所示:(下面是对齐单个特征)
———————————————————————————————————————————
下图的公式是在二阶网格中传播,对齐多个特征的公式。其中左图为了说明和
的区别。
(5)实验
训练数据集:REDS、Vimeo-90K
测试数据集:REDS4、Vid4、UDM10、Vimeo-90K-T、Vimeo-90K
验证数据集:REDSval4
下采样方法:Bicubic (BI) and Blur Downsampling (BD)
迭代优化器:Adam optimizer、Cosine Annealing
学习率:主网络10^-4,光流估计2.5*10^-5
输入LR尺寸:64*64
损失函数:Charbonnier loss
(5.1)BasicVSR++相比较其他模型的实验结果:
使用不同的下采样方式进行测试,本方法的PSNR/SSIM效果最好,参数少,运行时间短。
与自己的前两种方法对比,效果提升的同时,参数量也没有大幅提高。
不同测试集上的效果比对
(5.2)消融实验实验结果:
(5.2.1)二阶传播与网格传播结果对比
(5.2.2)基于光流的DCN对齐
光流引导的特征对齐对模型的有效性:
个人总结:这篇文章还是在BasicVSR的基础上,对四大组件进行延伸修改,主要在传播和对齐方面进行优化,利用二阶网格传播,重复对信息进行提取和利用,使得特征细节丰富。光流引导的可变形对齐,解决遮挡情况下的光流对齐效果一般的情况,并且通过使用光流引导,稳定和加快可变形对齐的速度。