0
点赞
收藏
分享

微信扫一扫

深层Transformer的一些工作

未定义变量 2022-04-01 阅读 44

0 引言

自从Transforme提出之后, 在各个领域获得了巨大的成功。 在提升精度这条道路上, 有很多的改进工作。
提升精度一个的一个常用做法就是把模型变大, 增大模型的容量, 从而提升模型的精度。 增大模型有2个方向,一个是增加宽度, 另一个是增加宽度。 像Transformer-big版本就是增加了宽度。
但是对Transformer网络, 单纯地直接增加深度通常会遇到梯度消失/爆炸等造成训练不稳定的问题。 因此需要额外的手段解决这些问题。
本文分享几篇通过不同方式加深Transformer网络深度的文章。

1 deep Transformer的一些工作

1.1 渐进增加网络深度

论文: Depth Growing for Neural Machine Translation

主要思想:通过一个two-stage的方式, 先训练一个较浅的Transformer网络, 然后在这个基础上在叠加几层, 冻结之前的层, 只训练新加的层。
整体框架如下图:
在这里插入图片描述
结果:
在这里插入图片描述

1.2 动态层信息融合,提升浅层信息的流通性

论文: Learning Deep Transformer Models for Machine Translation

主要思想: 1) 采用pre-LN增加训练的稳定性, 2) 通过动态层信息融合的方式, 提升浅层信息向深层的传递性,避免信息丢失等问题。

动态线性连接示例:
在这里插入图片描述
结果:
在这里插入图片描述

1.3 优化初始化的方式

论文: Very Deep Transformers for Neural Machine Translation

主要思想: 通过ADMIN 初始化的方式一定程度上缓解梯度爆炸/消失的风险, 从而可以训练更深的Transformer网络。

结果:
在这里插入图片描述

举报

相关推荐

0 条评论