0

点赞

收藏

分享

将输出打印至log文件

彩虹_bd07 2024-07-26 阅读 36

标签: transformer bert 深度学习

首先，来看一下Transformer架构图：
在这里插入图片描述
我们知道，Bert设计时主要采用的是Transformer编码器部分，要论述Bert为啥是双向的，我想从编码器和解码器的注意力机制来阐述。

我们知道，编码器部分的注意力机制采用多头注意力机制，而为什么要用MultiHead Attention，Transformer给出的解释为：Multi-head attention允许模型共同关注来自不同位置的不同表示子空间的信息；

而解码器部分采用的是Masked Attention，mask的目的是为了防止网络看到不该看到的内容。

二者区别一个是双向，一个是单向，这也就是我如何理解的Bert采用的是双向编码器了。

0 条评论

关注