0
点赞
收藏
分享

微信扫一扫

从零开始实现大语言模型(五):缩放点积注意力机制

1. 前言

缩放点积注意力机制(scaled dot-product attention)是OpenAI的GPT系列大语言模型所使用的多头注意力机制(multi-head attention)的核心,其目标与前文所述简单自注意力机制完全相同,即输入向量序列 x 1 , x 2 , ⋯   , x n x_1, x_2, \cdots, x_n x

举报

相关推荐

0 条评论