多模态学习博文

一些关于多模态学习的新闻与博客，帮助你快速了解多模态最新进展与任务。

文章目录

多模态学习博文

多模态机器学习综述

多模态机器学习综述_人工智能与算法学习的博客-CSDN博客

Multimodal Fusion（多模态融合）

Multimodal Fusion（多模态融合）_上杉翔二的博客-CSDN博客_多模态融合

多模态知识图谱

多模态知识图谱 - 知乎 (zhihu.com)

中科院自动化所首个视觉-语言预训练综述

多模态不了解最新进展？中科院自动化所首个视觉-语言预训练综述-今日头条 (toutiao.com)

VLP: A Survey on Vision-Language Pre-training (readpaper.com)

多模态、万亿参数、生成语音，吴恩达回顾人工智能2021

多模态、万亿参数、生成语音，吴恩达回顾人工智能2021-今日头条 (toutiao.com)

The Batch | DeepLearning.AI

在多模态训练中融入“知识+图谱”：方法及电商应用实践

在多模态训练中融入“知识+图谱”：方法及电商应用实践-今日头条 (toutiao.com)

多模态知识图谱的应用场景十分广泛，它极大地帮助了现有自然语言处理和计算机视觉等领域的发展。多模态结构数据虽然在底层表征上是异构的，但是相同实体的不同模态数据在高层语义上是统一的，所以多种模态数据的融合对于在语义层级构建多种模态下统一的语言表示模型提出数据支持。其次多模态知识图谱技术可以服务于各种下游领域，例如多模态实体链接技术可以融合多种模态下的相同实体，可应用于新闻阅读，同款商品识别等场景中，多模态知识图谱补全技术可以通过远程监督补全多模态知识图谱，完善现有的多模态知识图谱，多模态对话系统可用于电商推荐，商品问答领域。

2 多模态预训练

预训练技术在计算机视觉(CV)领域如VGG、Google Inception和ResNet，以及自然语言处理(NLP)如BERT、XLNet和GPT-3的成功应用，启发了越来越多的研究者将目光投向多模态预训练。本质上，多模态预训练期望学习到两种或多种模态间的关联关系。学术界的多模态预训练方案多基于Transformer模块，在应用上集中于图文任务，方案大多大同小异，主要差异在于采用模型结构与训练任务的差异组合，多模态预训练的下游任务可以是常规的分类识别、视觉问答、视觉理解推断任务等等。VideoBERT是多模态预训练的第一个作品，它基于BERT训练大量未标记的视频文本对。目前，针对图像和文本的多模态预训练模型主要可以分为单流模型和双流模型两种架构。VideoBERT，B2T2， VisualBERT， Unicoder-VL ， VL-BERT和UNITER使用了单流架构，即利用单个Transformer的self-attention机制同时建模图像和文本信息。另一方面，LXMERT、ViLBERT和FashionBERT引入了双流架构，首先独立提取图像和文本的特征，然后使用更复杂的cross-attention机制来完成它们的交互。为了进一步提高性能，VLP应用了一个共享的多层Transformer进行编码和解码，用于图像字幕和VQA。基于单流架构，InterBERT将两个独立的Transformer流添加到单流模型的输出中，以捕获模态独立性。