0
点赞
收藏
分享

微信扫一扫

12 Masked Self-Attention(掩码自注意力机制)



上节课回顾

《Attention is all you need》

Attention

Self-Attention(Self--》自--》QKV 同源)

句法结构,语义结构

自注意力机制明确的知道这句话有多少个单词,并且一次性给足,而掩码是分批次给,最后一次才给足

Masked(掩码) Self-Attention--》在自注意力模型上面做了改进

为什么要做这个改进:生成模型,生成单词,一个一个生成的

当我们做生成任务的时候,我们也想对生成的这个单词做注意力计算,但是,生成的句子是一个一个单词生成的

I have a dream

  1. I 第一次注意力计算,只有 I
  2. I have 第二次,只有 I 和 have
  3. I have a
  4. I have a dream
  5. I have a dream <eos>

掩码自注意力机制应运而生

掩码后 1

掩码后2

未来我们讲 Transformer 的时候会详细讲!

Multi-head Self-Attention。



举报

相关推荐

0 条评论