0
点赞
收藏
分享

微信扫一扫

GPT系列

书坊尚 2022-02-07 阅读 77

在这里插入图片描述

一 GPT–无监督学习

1.1 论文

2.1 第一阶段

2.2 第二阶段

2.3 效果

4.1、总结

二 GPT2–多任务学习

基本是机器翻译,也进行了基本的人工矫正,凑活看吧
原论文:《Language Models are Unsupervised Multitask Learners》
原论文地址:https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
OpenAI发布的一个小版本GPT-2:https://github.com/openai/gpt-2
官网:https://www.openai.com/blog/better-language-models/
原论文最后是一个十几页的附录,里面给出了GPT-2生成的一些例子,有兴趣的话可以阅读原论文。
其他资料:

https://www.jiqizhixin.com/articles/OpenAI-GPT-2
https://blog.csdn.net/u012526436/article/details/87882985
https://www.jianshu.com/p/874fd64584f5

2.1 GPT-2的核心思想

2.2 模型细节
同样使用了使用字节对编码构建字典,字典的大小为50257 ;
滑动窗口的大小为1024;
batchsize的大小为512;
Layer Normalization移动到了每一块的输入部分,在每个self-attention之后额外添加了一个Layer Normalization;
将残差层的初始化值用1/根号n 进行缩放,其中n是残差层的个数。
GPT-2训练了4组不同的层数和词向量的长度的模型,具体值见表2。通过这4个模型的实验结果我们可以看出随着模型的增大,模型的效果是不断提升的。
在这里插入图片描述

2.4 总结

三 GPT-3:海量参数

参考资料
【1】https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

【2】从Word Embedding到Bert模型——自然语言处理预训练技术发展史: https://www.jiqizhixin.com/articles/2018-12-10-8

【3】GPT2 https://www.sohu.com/a/336262203_129720 https://jalammar.github.io/illustrated-gpt2/

【4】Pytorch代码实现: huggingface/pytorch-openai-transformer-lm

【5】GPT简介https://www.cnblogs.com/yifanrensheng/p/13167796.html
【6】词向量之GPT-1,GPT-2和GPT-3
https://zhuanlan.zhihu.com/p/350017443

举报

相关推荐

0 条评论