0

点赞

收藏

分享

从零开始实现大语言模型（五）：缩放点积注意力机制

MaxWen 2024-07-24 阅读 30

标签: 语言模型机器学习深度学习 chatgpt gpt-3 人工智能

1. 前言

缩放点积注意力机制(scaled dot-product attention)是OpenAI的GPT系列大语言模型所使用的多头注意力机制(multi-head attention)的核心，其目标与前文所述简单自注意力机制完全相同，即输入向量序列 $x_1, x_2, \cdots, x_n$

0 条评论

关注