transformer在预训练时,靠attention matrix能学到 预训练数据 里两两token之间的关系,也就是所说的上下文关系,然后在fine-tune时只会重写 fine-tune数据集 里的两两token之间的关系。
memory network 不能学到这些两两token之间的关系。
memory network 没有成为BERT的基石的原因
阅读 146
2023-01-28
transformer在预训练时,靠attention matrix能学到 预训练数据 里两两token之间的关系,也就是所说的上下文关系,然后在fine-tune时只会重写 fine-tune数据集 里的两两token之间的关系。
memory network 不能学到这些两两token之间的关系。
相关推荐
精彩评论(0)