transformer
位置编码:没有采用RNN的transformer好像没有捕捉序列信息的功能,它分不清到底是我咬了狗还是狗咬了我。怎么办呢,可以在输入词向量的时候结合上单词的位置信息,这样到就可以学习词序信息了
decoder:
-
比编码器多了第三个子层(也是一个多头注意力机制,也用了残差,也用layernorm)叫masked muti-headed attention(为下一层提供Q)。解码器用了一个自回归,当前层的一些输入时上面一些时刻的输入,这就意味着你在做预测的时候,当然不能看到之后的那些时刻的输出。但是做attention的时候,是可以看见完整的输入的,为了避免这个发生,使用带mask的注意力机制。这就可以保证训练和预测的时候行为是一致的。
LayerNorm
先看batch Normlization