0

点赞

收藏

分享

memory network 没有成为BERT的基石的原因

悲催博士僧 2023-01-28 阅读 147

标签: bert 人工智能自然语言处理数据集数据 OpenStack 云计算

transformer在预训练时，靠attention matrix能学到预训练数据里两两token之间的关系，也就是所说的上下文关系，然后在fine-tune时只会重写 fine-tune数据集里的两两token之间的关系。

memory network 不能学到这些两两token之间的关系。

0 条评论

悲催博士僧

关注