自然语言处理基础和应用
👆说明之前的大模型其实有很多都是基于迁移学习的方法。
attention机制的总结,解决了信息瓶颈的问题。
处理词组时BPE的过程
👆pos表示的是token所在的位置
👆技巧是layer normalization。
prompt
参数高效微调方法
大多数的模型做的都是基座模型、不一定具备对话能力。
一般会通过基座模型,然后微调成对话模型。(难度很大)
大多数自己做的模型,都是根据已经训练成功的对话模型再微调。
👆语言没有sql、因为sql的语言不通用。
数据集分类
👆总结,虽然大模型效果会好,但是到一定程度会有瓶颈。
分词类型描述👆
由于显卡的存储是有限的,所以并行是非常有必要的👇
👆大模型里用的最多的是量化!!!!
8位整数表达64位浮点数,内存空间减少到只有原来的1/8。
浮点数变成整数叫量化、浮点数变成整数叫做反量化。
常见的量化方法
Vim用transformer做图像分类
这个模型完全没用cnn,把内容和位置同时加到一个向量,在第一个向量模仿bert做了一个cls。