0
点赞
收藏
分享

微信扫一扫

Learning Joint Spatial-Temporal Transformations for Video Inpainting

绣文字 2022-02-03 阅读 40

该算法在STTN的基础上改进,去掉了multi-layer的结构(实验也证明multi-layer用处微乎其微,见下图黄色部分),引入soft split和soft combine(即stride小于kernel size),实验结果相较于STTN有了提升。
在这里插入图片描述
相较于STTN,FuseFormer的主要区别在于将transformer中的MLP模块换成了 Fusion Feed Forward Network (F3N),即在两个全连接层中加入一对soft combine和soft split 操作,soft combine将经过了自注意力和第一层全连接的patch序列按照原来的顺序组合回特征图,其中patch之间重叠的部分特征值直接相加,再经过一个soft split操作将特征图转换回patch序列、并将patch序列送入第二个全连接层。相比于原始的MLP,F3N能更多地融合相邻patch的信息。
在这里插入图片描述

举报

相关推荐

0 条评论