多模态学习博文
一些关于多模态学习的新闻与博客,帮助你快速了解多模态最新进展与任务。
文章目录
- 多模态学习博文
- 多模态机器学习综述
- Multimodal Fusion(多模态融合)
- 多模态知识图谱
- 中科院自动化所首个视觉-语言预训练综述
- 多模态、万亿参数、生成语音,吴恩达回顾人工智能2021
- 在多模态训练中融入“知识+图谱”:方法及电商应用实践
- 多模态Transformer用于视频分割效果惊艳
- Facebook 推出多模态通用模型 FLAVA
- 微软亚洲研究院多模态模型NÜWA:以自然语言创造视觉内容
- 华为诺亚开源首个亿级中文多模态数据集,填补中文NLP社区空白
- 重磅!百度多模态模型ERNIE-ViL刷新5项任务纪录,登顶权威榜单VCR
- 多模态任务新蓝海:视觉语言导航最新进展
- 神器CLIP是如何炼成的!
- DALL-E、「女娲」刷屏背后,多模态图像合成与编辑领域进展如何?
- 最大数据集、多任务覆盖,达摩院发布大规模中文多模态评测基准
- 多模态语义分析_基于知识图谱的语义理解技术及应用
- 多模态情感分析数据集整理
- 多模态(Fusion)融合的几种骚操作
- 1000亿参数!阿里&清华发布最大规模的中文多模态预训练模型M6
- 单一ViT模型执行多模态多任务,谷歌用协同训练策略实现多个SOTA
- 新一代多模态文档理解预训练模型LayoutLM 2.0发布
- ViLT:最简单的多模态Transformer
多模态机器学习综述
多模态机器学习综述_人工智能与算法学习的博客-CSDN博客
Multimodal Fusion(多模态融合)
Multimodal Fusion(多模态融合)_上杉翔二的博客-CSDN博客_多模态融合
多模态知识图谱
多模态知识图谱 - 知乎 (zhihu.com)
中科院自动化所首个视觉-语言预训练综述
多模态不了解最新进展?中科院自动化所首个视觉-语言预训练综述-今日头条 (toutiao.com)
VLP: A Survey on Vision-Language Pre-training (readpaper.com)
多模态、万亿参数、生成语音,吴恩达回顾人工智能2021
多模态、万亿参数、生成语音,吴恩达回顾人工智能2021-今日头条 (toutiao.com)
The Batch | DeepLearning.AI
在多模态训练中融入“知识+图谱”:方法及电商应用实践
在多模态训练中融入“知识+图谱”:方法及电商应用实践-今日头条 (toutiao.com)
多模态知识图谱的应用场景十分广泛,它极大地帮助了现有自然语言处理和计算机视觉等领域的发展。多模态结构数据虽然在底层表征上是异构的,但是相同实体的不同模态数据在高层语义上是统一的,所以多种模态数据的融合对于在语义层级构建多种模态下统一的语言表示模型提出数据支持。其次多模态知识图谱技术可以服务于各种下游领域,例如多模态实体链接技术可以融合多种模态下的相同实体,可应用于新闻阅读,同款商品识别等场景中,多模态知识图谱补全技术可以通过远程监督补全多模态知识图谱,完善现有的多模态知识图谱,多模态对话系统可用于电商推荐,商品问答领域。
2 多模态预训练
预训练技术在计算机视觉(CV)领域如VGG、Google Inception和ResNet,以及自然语言处理(NLP)如BERT、XLNet和GPT-3的成功应用,启发了越来越多的研究者将目光投向多模态预训练。本质上,多模态预训练期望学习到两种或多种模态间的关联关系。学术界的多模态预训练方案多基于Transformer模块,在应用上集中于图文任务,方案大多大同小异,主要差异在于采用模型结构与训练任务的差异组合,多模态预训练的下游任务可以是常规的分类识别、视觉问答、视觉理解推断任务等等。VideoBERT是多模态预训练的第一个作品,它基于BERT训练大量未标记的视频文本对。目前,针对图像和文本的多模态预训练模型主要可以分为单流模型和双流模型两种架构。VideoBERT,B2T2, VisualBERT, Unicoder-VL , VL-BERT和UNITER使用了单流架构,即利用单个Transformer的self-attention机制同时建模图像和文本信息。另一方面,LXMERT、ViLBERT和FashionBERT引入了双流架构,首先独立提取图像和文本的特征,然后使用更复杂的cross-attention机制来完成它们的交互。为了进一步提高性能,VLP应用了一个共享的多层Transformer进行编码和解码,用于图像字幕和VQA。基于单流架构,InterBERT将两个独立的Transformer流添加到单流模型的输出中,以捕获模态独立性。
多模态Transformer用于视频分割效果惊艳
单GPU每秒76帧,多模态Transformer用于视频分割效果惊艳-今日头条 (toutiao.com)
Facebook 推出多模态通用模型 FLAVA
Facebook 推出多模态通用模型 FLAVA,吊打 CLIP 平均十个点-今日头条 (toutiao.com)
微软亚洲研究院多模态模型NÜWA:以自然语言创造视觉内容
微软亚洲研究院多模态模型NÜWA:以自然语言创造视觉内容-今日头条 (toutiao.com)
华为诺亚开源首个亿级中文多模态数据集,填补中文NLP社区空白
华为诺亚开源首个亿级中文多模态数据集,填补中文NLP社区空白-今日头条 (toutiao.com)
重磅!百度多模态模型ERNIE-ViL刷新5项任务纪录,登顶权威榜单VCR
重磅!百度多模态模型ERNIE-ViL刷新5项任务纪录,登顶权威榜单VCR-今日头条 (toutiao.com)
多模态任务新蓝海:视觉语言导航最新进展
多模态任务新蓝海:视觉语言导航最新进展-今日头条 (toutiao.com)
神器CLIP是如何炼成的!
神器CLIP是如何炼成的! (qq.com)
DALL-E、「女娲」刷屏背后,多模态图像合成与编辑领域进展如何?
DALL-E、「女娲」刷屏背后,多模态图像合成与编辑领域进展如何?-今日头条 (toutiao.com)
最大数据集、多任务覆盖,达摩院发布大规模中文多模态评测基准
最大数据集、多任务覆盖,达摩院发布大规模中文多模态评测基准-今日头条 (toutiao.com)
多模态语义分析_基于知识图谱的语义理解技术及应用
多模态语义分析_基于知识图谱的语义理解技术及应用_蔡振原的博客-CSDN博客
多模态情感分析数据集整理
多模态情感分析数据集整理-今日头条 (toutiao.com)
多模态(Fusion)融合的几种骚操作
多模态(Fusion)融合的几种骚操作_越来越胖的GuanRunwei的博客-CSDN博客_多模态混合融合
1000亿参数!阿里&清华发布最大规模的中文多模态预训练模型M6
1000亿参数!阿里&清华发布最大规模的中文多模态预训练模型M6-今日头条 (toutiao.com)
单一ViT模型执行多模态多任务,谷歌用协同训练策略实现多个SOTA
单一ViT模型执行多模态多任务,谷歌用协同训练策略实现多个SOTA-今日头条 (toutiao.com)
新一代多模态文档理解预训练模型LayoutLM 2.0发布
新一代多模态文档理解预训练模型LayoutLM 2.0发布-今日头条 (toutiao.com)
ViLT:最简单的多模态Transformer
ViLT:最简单的多模态Transformer-今日头条 (toutiao.com)
utiao_android&utm_campaign=client_share&share_token=a8f52605-9a6e-4670-a1dc-16d91b2aa4f1)