transformer在预训练时,靠attention matrix能学到 预训练数据 里两两token之间的关系,也就是所说的上下文关系,然后在fine-tune时只会重写 fine-tune数据集 里的两两token之间的关系。
memory network 不能学到这些两两token之间的关系。
微信扫一扫
transformer在预训练时,靠attention matrix能学到 预训练数据 里两两token之间的关系,也就是所说的上下文关系,然后在fine-tune时只会重写 fine-tune数据集 里的两两token之间的关系。
memory network 不能学到这些两两token之间的关系。
相关推荐