Learning Joint Spatial-Temporal Transformations for Video Inpainting-CFANZ编程社区

Learning Joint Spatial-Temporal Transformations for Video Inpainting

该算法在STTN的基础上改进，去掉了multi-layer的结构（实验也证明multi-layer用处微乎其微，见下图黄色部分），引入soft split和soft combine（即stride小于kernel size），实验结果相较于STTN有了提升。
在这里插入图片描述
相较于STTN，FuseFormer的主要区别在于将transformer中的MLP模块换成了 Fusion Feed Forward Network (F3N)，即在两个全连接层中加入一对soft combine和soft split 操作，soft combine将经过了自注意力和第一层全连接的patch序列按照原来的顺序组合回特征图，其中patch之间重叠的部分特征值直接相加，再经过一个soft split操作将特征图转换回patch序列、并将patch序列送入第二个全连接层。相比于原始的MLP，F3N能更多地融合相邻patch的信息。
在这里插入图片描述

0 条评论