1. BERT

 
 
 
 3亿参数 30亿个词
在输入和loss上有创新
 两个句子拼起来放到encoder–句子对
 cls-class分类
 sep-seperate 分隔符 分开每个句子 告诉是哪个句子 两个句子给不同的向量
 位置编码不用sin cos, 让网络自己学习
 
bert–通用任务
 encoder 是双向的,两个方向的信息都可以看到
 预测mask是谁。
 改动:让模型在做微调的时候不要看到mask就做预测

 
 
4. QA

 1 对每个词每个token 学习一个固定长度的向量
 2 bert 用一个词段做向量表示
 3 15% 中的10%
 4 大量用在cv上,图片可以扣很多小块出来,是有空间关系的,模拟语言模型的关系
 6 用小一点的bert模型;多用几个卡;每个gpu存一部分的模型。
 7 gpt等 预训练任务本身都会有改进
 8 bert之后的论文
 










