Raki的读paper小记：RWKV: Reinventing RNNs for the Transformer Era-CFANZ编程社区

Raki的读paper小记：RWKV: Reinventing RNNs for the Transformer Era

论文：《Attention Is All You Need》
代码：http://nlp.seas.harvard.edu/annotated-transformer/
地址：https://arxiv.org/abs/1706.03762v5
翻译：Transformer论文翻译

特点：

核心贡献：

Transformer 的基本结构

在这里插入图片描述

在这里插入图片描述

$\text{Self-Attention}(K,Q,V)=\text{softmax}(\frac{QK^T}{\sqrt{d}})V$

缺点：点积运算无法对序列中 token 出现的位置进行建模，这样会导致模型无法充分地利用数据上下文中所蕴含的丰富的语义信息。
解决方式：引入位置嵌入（Position Embedding、Position Encoding）

PE_{pos,2i}=sin(pos/10000^{2i/d_{model}})
PE_{pos,2i+1}=cos(pos/10000^{2i/d_{model}})

Self-Attention 的复杂度：
在这里插入图片描述

0 条评论