12 Masked Self-Attention（掩码自注意力机制）-CFANZ编程社区

12 Masked Self-Attention（掩码自注意力机制）

上节课回顾

《Attention is all you need》

句法结构，语义结构

自注意力机制明确的知道这句话有多少个单词，并且一次性给足，而掩码是分批次给，最后一次才给足

为什么要做这个改进：生成模型，生成单词，一个一个生成的

当我们做生成任务的时候，我们也想对生成的这个单词做注意力计算，但是，生成的句子是一个一个单词生成的

I have a dream

掩码自注意力机制应运而生

掩码后 1

掩码后2

未来我们讲 Transformer 的时候会详细讲！

Multi-head Self-Attention。

0 条评论