0
点赞
收藏
分享

微信扫一扫

memory network 没有成为BERT的基石的原因


transformer在预训练时,靠attention matrix能学到 预训练数据 里两两token之间的关系,也就是所说的上下文关系,然后在fine-tune时只会重写 fine-tune数据集 里的两两token之间的关系。

memory network 不能学到这些两两token之间的关系。


举报

相关推荐

BERT的学习

0 条评论