0
点赞
收藏
分享

微信扫一扫

Vis-transformer的模型结构及数据流图梳理

vision_transformer顾名思义,是将自然语言处理中的Transformer的思想应用在图像分类中,将一张图像切成不同的patch之后作为sequence,使用Transformer来实现图像分类。

本文主要是梳理vis-transformer的模型结构,以及图像数据在各种算子operator下的shape变化。方便理解和进一步开发。

Excalidraw | Hand-drawn look & feel • Collaborative • Secure

举报

相关推荐

0 条评论