0
点赞
收藏
分享

微信扫一扫

《机器学习》 线性回归 一元、多元 推导 No.3

倪雅各 2024-08-19 阅读 27

全连接即是矩阵乘,因此在transformer中获取QKV理论上是输入与QKV权重矩阵相乘,但实际操作则是使用全连接即nn.Linear(),注意这里的输入和输出都是二维的[batch,d_model],即每个样本是一维的。

举报

相关推荐

0 条评论