0

点赞

收藏

分享

NLP闭关修炼

钵仔糕的波波仔 2022-03-12 阅读 49

标签: 自然语言处理 transformer 深度学习

笔记目录

关于Transformer
小样本学习
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
SKEP: Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis
Leveraging Graph to Improve Abstractive Multi-Document Summarization

关于Transformer

transformer在大的数据集上表现更好。
-> BERT模型，在大数据集上进行预训练得到语言模型结果。
vi-T是对顺序不敏感的，因此用固定的位置编码对输入进行补充。
-> 那么为什么Transformer会对位置信息不敏感呢？输入和输出不也是按照一定序列排好的吗？
-> 回忆一下，encoder self-attention机制，在tokens序列中，后面的token包含有前面token的语义信息，而前面的token同样是包含有后面token的信息的，并不像simpleRNN一样是从左向右依次提取。那么这样将会导致序列提取出来的信息“包罗万象”，比如在“我爱你”这句话某一层的提取结果中，每一个位置上的token都会叠加其余位置上token的信息，经过多个自注意力层提取之后，原始输入“我爱你”和“你爱我”这两句话对应的特征序列理应是不容易区分开的，然而这两句话的现实涵义则是完全不同的。
-> 疑惑：RNN有长文本遗忘的问题，对于长文本，语句双向的涵义叠加起来看起来似乎合理，可以解决问题；但对于短文本，双向RNN会不会也有和Transformer同样的问题，即混淆序列中token的位置信息？

[token之间的相关性；K、Q (token*W) 之间的相似性]
transformer N维序列的输入[x]对应N维序列的输出[c]，RNN里边可以只保留最后一个状态向量 $h_i$ ，而transformer必须全部保留，因为参数不共享（多头自注意力机制那里也不共享参数）。
-> 猜测：考虑到句子中每个位置上不同单词出现的频数不同，因此不共享参数可能可以达到更好的效果（多头自注意力机制则更好理解了，如果共享了参数那么也没有其存在的必要了）。

在这里插入图片描述

疑惑：如果编码器输入x_1和解码器输入x_1’的维度不一样，那么K和Q之间的相似度该如何计算呢？还是有些模棱两可，不求甚解……
NLP的输入序列必须等长，如果超长就要切片，如果长度不足就要补齐。

在这里插入图片描述

Transformer在训练阶段的解码器部分，为了防止自注意力偷窥到预测单词之后的序列，采用mask方法。

小样本学习

在这里插入图片描述

Tips：

对Transformer求Q和K的相关度时，也可以做此改进。
从K、Q、V入手，看看是否能对Transformer模型改进。

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Transformer的decoder部分为单向模型，因为文本生成需要从左向右依次预测下一个位置上的字母；而encoder部分则为双向模型，因为每一个位置上的token都整合了其余位置上所有token的信息。概括来说，BERT模型是深度堆叠的Transformer，并且只利用了其中encoder部分的模型。

在这里插入图片描述

SKEP: Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis

在这里插入图片描述

上述提到的情感词的极性，可以理解为给定词语蕴涵积极或消极的意义。那么如何理解以上三类先验知识呢？首先，为了让特征提取器对情感词更敏感，需要在预训练阶段接受情感词的特征信息。其次，模型知道一个词是不是情感词之后，还需要知道这个情感词的意义是积极的还是消极的。另外，假设一条影评“电影很好看，但是爆米花不好吃”，我们该如何做情感分析呢？文中引入了属性词-情感词对的说法，在这个例子中就是“电影-好看”、“爆米花-不好吃”，强化了属性与其对应的情感词之间的联系，而弱化了不相关的词间联系。通过消融实验发现这三种做法确实能够提高模型解释力。
Reference：https://zhuanlan.zhihu.com/p/267837817

Leveraging Graph to Improve Abstractive Multi-Document Summarization

key words：文本生成和摘要、多文档输入、图神经网络

相关背景：
之前的许多模型诸如BERT，RoBERTa等等，均会限制输入的token数量不能超过512个。
在这里插入图片描述
利用本文提出的图模型，在BERT和预训练语言模型上进行改进，可以突破序列化结构对输入长度的限制，处理多文档的输入。

以防笔记丢失，先发布为妙(●’◡’●)周更ing…

0 条评论

钵仔糕的波波仔

关注