最近看到很多概念，杂乱无章有点分不清楚，条分缕析来总结一下。

1. XX学习

对比学习和度量学习都是表示学习的分支。

对比学习

近几年对比学习如火如荼，其主要思想是，通过构造正负样本，使得正样本间的距离靠近，负样本间的距离拉远，且负样本间的距离远远大于正样本间的距离。对比学习主要用在无监督和半监督任务中，且为单正例，多负例。

一个好的对比学习系统应该兼顾Alignment和Uniformity，若丢失Alignment，则说明该系统并不能学习到良好的表征；若丢失Uniformity，则说明产生了模型坍塌问题。

与对比学习相似，度量学习也是通过构造正负样本，拉近正样本间的距离，拉远负样本间的距离。度量学习主要用于有监督任务中，且为二元组或三元组形式。

Pytorch中可直接调用MarginRankingLoss实现

Pytorch中可直接调用TripletMarginLoss实现

这些语言模型的思想本质上都是通过在大规模训练语料上，使用合适的损失函数进行训练，得到能够更好地提取文本特征的预训练语言模型。

给定上下文信息，预测文本掩码中的词，提高模型对文本的特征提取能力。

Bert是 Google 推出的预训练语言模型框架，Bert全家桶包括：

Bert：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding（NAACL, 2019） Google
SpanBert：SpanBERT: Improving Pre-training by Representing and Predicting Spans（TACL, 2020） Facebook & 华盛顿大学
Roberta：RoBERTa: A Robustly Optimized BERT Pretraining Approach（2019） Facebook & 华盛顿大学
ALBert：ALBERT: A Lite BERT for Self-supervised Learning of Language Representations（ICLR, 2020） Google
Electra：Efficiently Learning an Encoder that Classifies Token Replacements Accuratel（ICLR, 2020） Stanford & Google

给定上文信息，预测文本掩码中的词，提高模型生成的文本的流畅性，一般用于文本生成任务中，如GPT系列、CTRL等。

GPT 是 OpenAI 推出的文本生成预训练语言模型框架，目前已经推出三个版本。

GPT： Improving Language Understanding by Generative Pre-Training
GPT-2：Language Models are Unsupervised Multitask Learners（CSUR, 2018）
GPT-3： Language Models are Few-Shot Learners（NeurIPS, 2020）有1750亿个参数
最近公布的ChatGPT采用了新的训练方式 RLHF（Reinforcement Learning from Human Feedback），掀起一波 AIGC（Artificial Inteligence Generated Content）的热潮。

T5模型是Google提出的预训练语言模型，其基本思想是：所有的NLP问题都可以定义成“text-to-text”问题，即“输入text，输出text，一个模型干所有”。该模型可以用于文本摘要、机器翻译、智能问答、情感分类，文本分类等下游任务。

T5：Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer（JMLR, 2020）

共享权重

不共享权重

Word2Vec
Efficient Estimation of Word Representations in Vector Space
ELMo（Embeddings from Language Models）
Deep Contextualized Word Representations（NAACL, 2018）