Transformer【第五章】-CFANZ编程社区

文章目录

Seq2seq
Encoder
Decoder

Autoregressive
Non-autoregressive

Encoder-Decoder (Cross attention)
Training

Seq2seq

Transformer 是一个 Sequence-to-sequence 的 Model（缩写 Seq2seq）

input 是一个 sequence，output 是一个 sequence，但是不知道多长，由机器自己决定 output 的长度。

应用：语音辨识，机器翻译，语音翻译

Transformer【第五章】_机器翻译

一般的 Seq2seq model 可以分为两块：Encoder + Decoder

input 一个 sequence，由 Encoder 负责处理这个 sequence，再把处理好的结果丢给 Decoder，由 Decoder 决定它要输出什么样的 sequence。

Transformer【第五章】_人工智能_02

Encoder

作用：给一排向量输出另外一排向量（相同长度），Transformer 的 Encoder 使用的就是 Self-attention。

Transformer【第五章】_人工智能_03

Encoder 中分为很多 block，每个 block 都是输入一排向量，输出一排向量，每个 block 实际并不是 Neuron Network 的一层，每个 block 作的事情，是好几个 layer 在作的事情：Self-attention、再丢到 FC 中，output 另外一排 vector（就是 block 的输出）

Transformer【第五章】_transformer_04

在原来的 Transformer 里面更复杂：

在 self-attention 的输出后加上原来的 input 的 vector，得到新的 ouput（残差网络），然后作 normalization（layer normalization），然后作为 FC 的输入，FC 也有 Residual 的架构，即将 FC 的输出加上 FC 的输入再作 layer normalization，然后作为 Block 的输出。

Transformer【第五章】_机器翻译_05

Decoder

Autoregressive

Decoder 产生输出

Decoder 先将 Encoder 的输出先读进去。

Decoder 如何产生一段文字：

先给它一个特殊符号代表开始（BOS）一个Special的token
Decoder吃到这个特殊的符号，每个Token都可以用One-Hot的Vector表示（其中一维是 1，其它是 0）
Decoder输出一个vector，大小和Vocabulary的size一样（通过softmax来确定输出是哪个字），然后再将Encoder的输出、begin、跟这个字的One-Hot的Vector作为Decoder的下一个输入，然后再得到输出，依次类推…，