该算法在STTN的基础上改进,去掉了multi-layer的结构(实验也证明multi-layer用处微乎其微,见下图黄色部分),引入soft split和soft combine(即stride小于kernel size),实验结果相较于STTN有了提升。
相较于STTN,FuseFormer的主要区别在于将transformer中的MLP模块换成了 Fusion Feed Forward Network (F3N),即在两个全连接层中加入一对soft combine和soft split 操作,soft combine将经过了自注意力和第一层全连接的patch序列按照原来的顺序组合回特征图,其中patch之间重叠的部分特征值直接相加,再经过一个soft split操作将特征图转换回patch序列、并将patch序列送入第二个全连接层。相比于原始的MLP,F3N能更多地融合相邻patch的信息。