0
点赞
收藏
分享

微信扫一扫

自注意力机制

624c95384278 2022-04-19 阅读 62
神经网络

自注意力机制核心就是给预测的单词赋予不同的权重
Encoder-Decoder框架本身就是处理句式为<Source,Target>,我们的目标是给定输入句子Source,期待通过Encoder-Decoder
框架来生成目标句子Target,Source和Target分别由各自的单词构成
Encoder顾名思义就是对输入句子Source进行编码
对于解码器Decoder来说,其任务是根据句子Source的中间语义表示C和之前已经生成的历史信息来生成i时刻要生成的单词

区别无非是Encoder部分的输入是语音流,输出是对应的文本信息;
而对于“图像描述”任务来说,Encoder部分的输入是一副图片,Decoder的输出是能够描述图片语义内容的一句描述语。
一般而言,文本处理和语音识别的Encoder部分通常采用RNN模型,图像处理的Encoder一般采用CNN模型。

目标句子中Target中每个单词的生成过程如下:
y1=f©
y2=f(C,y1)
y3=f(C,y1,y2)
f是Decoder的非线性变换函,从这里可以看出,在生成目标句子的单词时,不论生成哪个单词,它们使用的输入句子Source的语义编码C都是一样的,没有任何区别。

语义编码C是由句子Source每个单词经过Encoder编码产生,意味着句子Source中的任意单词对生成某个目标单词yi来说是有影响力的

example:
Tom chase Jerry,
Encoder-Decoder框架逐步生成中文单词:
“汤姆”,“追逐”,“杰瑞”
给出一个概率分布值:
(Tom,0.3)(Chase,0.2) (Jerry,0.5)
该模型代表了翻译当前单词为“杰瑞”时候,注意力分配模型给不同英文单词分配给不同的注意力大小
参考文献

举报

相关推荐

0 条评论