一 GPT–无监督学习
1.1 论文
2.1 第一阶段
2.2 第二阶段
2.3 效果
4.1、总结
二 GPT2–多任务学习
基本是机器翻译,也进行了基本的人工矫正,凑活看吧
原论文:《Language Models are Unsupervised Multitask Learners》
原论文地址:https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
OpenAI发布的一个小版本GPT-2:https://github.com/openai/gpt-2
官网:https://www.openai.com/blog/better-language-models/
原论文最后是一个十几页的附录,里面给出了GPT-2生成的一些例子,有兴趣的话可以阅读原论文。
其他资料:
https://www.jiqizhixin.com/articles/OpenAI-GPT-2
https://blog.csdn.net/u012526436/article/details/87882985
https://www.jianshu.com/p/874fd64584f5
2.1 GPT-2的核心思想
2.2 模型细节
同样使用了使用字节对编码构建字典,字典的大小为50257 ;
滑动窗口的大小为1024;
batchsize的大小为512;
Layer Normalization移动到了每一块的输入部分,在每个self-attention之后额外添加了一个Layer Normalization;
将残差层的初始化值用1/根号n 进行缩放,其中n是残差层的个数。
GPT-2训练了4组不同的层数和词向量的长度的模型,具体值见表2。通过这4个模型的实验结果我们可以看出随着模型的增大,模型的效果是不断提升的。
2.4 总结
三 GPT-3:海量参数
参考资料
【1】https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf
【2】从Word Embedding到Bert模型——自然语言处理预训练技术发展史: https://www.jiqizhixin.com/articles/2018-12-10-8
【3】GPT2 https://www.sohu.com/a/336262203_129720 https://jalammar.github.io/illustrated-gpt2/
【4】Pytorch代码实现: huggingface/pytorch-openai-transformer-lm
【5】GPT简介https://www.cnblogs.com/yifanrensheng/p/13167796.html
【6】词向量之GPT-1,GPT-2和GPT-3
https://zhuanlan.zhihu.com/p/350017443