0
点赞
收藏
分享

微信扫一扫

2024年1月12日最热AI论文Top5:自动生成百万视频字幕、Transformer其实是多状态RNN、多模态理解、时间知识图谱、MoE模型专家


TOP1

Distilling Vision-Language Models on Millions of Videos

标题:

谷歌研究新突破:Distilling VLM模型自动生成百万视频字幕,视频语言模型性能提升6%!

标签:
Google、CV

Yue Zhao, Long Zhao, Xingyi Zhou, Jialin Wu, Chun-Te Chu, Hui Miao, Florian Schroff, Hartwig Adam, Ting Liu, Boqing Gong, Philipp Krähenbühl, Liangzhe Yuan

推荐理由:

这篇论文来自谷歌,一个在AI领域具有极高影响力的公司,且论文的主题是关于大规模视频数据上的视觉-语言模型蒸馏,这涉及到当前非常热门的多模态学习领域。此外,论文提供了项目页面,表明可能有具体的实现和更多的细节可以探讨,这对于吸引读者和实际应用都是有益的。

论文简介:

最近在视觉-语言模型方面的进展很大程度上归功于大量的图像-文本数据。我们的目标是复制这种成功到视频-语言模型上,但问题是没有足够的人工整理的视频-文本数据可用。因此,我们采取了使用合成的指导性数据对一个强大的图像-语言基线模型进行微调的方法。由此产生的视频-语言模型随后被用来自动标记数百万视频以生成高质量的字幕。我们展示了这种调整后的视频-语言模型在广泛的视频-语言基准测试上表现良好。例如,它在开放式NExT-QA上超越了之前最好的结果2.8%。此外,我们的模型为以前未见过的视频生成详细描述,这提供了比现有方法更好的文本监督。实验表明,一个在这些自动生成的字幕上对比训练的视频-语言双编码器模型比同样利用视觉-语言模型的最强基线模型好3.8%。我们最好的模型在MSR-VTT零样本文本到视频检索上超过了最先进方法6%。

论文解读链接:
https://www.saibomaliang.com/generate?session_id=08e8a2e2-172c-4009-966b-b0360ab909f0

TOP2

Transformers are Multi-State RNNs
标题:
揭秘Transformer的无限可能,Meta研究发现Transformer其实是多状态RNN

标签:
Meta、NLP

推荐理由:

由Meta(Facebook的母公司)发表的论文,研究了Transformer模型与多状态RNN的关系,这是对当前流行的Transformer模型架构的一个新视角,具有很高的创新性和讨论价值。此外,Meta作为一个知名的大公司,其发表的研究自然会吸引更多的关注。

论文简介:

Transformers与之前一代的最先进的自然语言处理(NLP)模型——循环神经网络(RNNs)在概念上被认为是不同的。在这项工作中,我们展示了仅解码器的Transformers实际上可以被概念化为无限多状态RNNs——一种具有无限制隐藏状态大小的RNN变体。我们进一步展示了,通过固定其隐藏状态的大小,预训练的Transformers可以被转换为有限多状态RNNs。我们观察到,一些现有的Transformers缓存压缩技术可以被视为这种转换策略,并且我们引入了一种新的策略,TOVA,与这些策略相比它更为简单。我们在几个长范围任务的实验表明,TOVA在性能上超过了所有其他基线策略,同时几乎与完整的(无限)模型相当,并且在某些情况下仅使用了原始缓存大小。我们的结果表明,Transformer解码器LLMs在实践中常常表现得像RNNs。它们还提出了缓解它们最痛苦的计算瓶颈之一——缓存内存大小的可能性。我们在以下链接公开发布了我们的代码。


TOP3

LEGO:Language Enhanced Multi-modal Grounding Model

标题:

细节识别再突破!复旦大学提出LEGO模型,多模态理解能力大幅提升

标签:
Fudan、NLP、CV

推荐理由:

这篇论文来自复旦大学,研究了多模态学习领域的一个新模型LEGO,这是一个当前AI领域的热点话题。复旦大学是中国的顶尖大学之一,其研究成果往往具有较高的质量和影响力。

论文简介:
这篇论文来自复旦大学,研究了多模态学习领域的一个新模型LEGO,这是一个当前AI领域的热点话题。复旦大学是中国的顶尖大学之一,其研究成果往往具有较高的质量和影响力。

论文简介: 多模态大型语言模型在不同模态的各种任务中展现了令人印象深刻的性能。然而,现有的多模态模型主要强调捕捉每种模态内的全局信息,而忽视了感知跨模态局部信息的重要性。因此,这些模型缺乏有效理解输入数据细粒度细节的能力,限制了它们在需要更细腻理解的任务中的性能。为了解决这一限制,迫切需要开发能够实现跨多个模态的细粒度理解的模型,从而增强它们在广泛任务中的适用性。在本文中,我们提出了LEGO,一种语言增强的多模态基础模型。与其他多模态模型捕捉全局信息不同,我们提出的模型擅长于要求详细理解输入内局部信息的任务。它展示了在图像中精确识别和定位特定区域或在视频中定位特定时刻的能力。为了实现这一目标,我们设计了一个多样化的数据集构建管道,产生了一个用于模型训练的多模态、多粒度数据集。

TOP4

Chain of History: Learning and Forecasting with LLMs for Temporal Knowledge Graph Completion

标题:

清华|用大语言模型预测历史链条,时间知识图谱完成任务SOTA成绩刷新!

标签:

Tsinghua、NLP、ML、KG

推荐理由:

由清华大学发表的论文,研究了基于大型语言模型(LLMs)的时间知识图谱补全,这是结合了知识图谱和大型语言模型两个热点领域的研究。清华大学是全球知名的研究机构,其论文通常具有较高的学术价值和关注度。

论文简介:

时态知识图谱补全(Temporal Knowledge Graph Completion,TKGC)是一个具有挑战性的任务,它通过利用已建立的时态结构知识来预测未来时间戳下缺失的事件链接。鉴于大型语言模型(LLMs)固有的强大生成能力,本文提出了一种将时态链接预测概念化为在历史事件链背景下的事件生成任务的新方法。我们采用高效的微调方法使LLMs适应特定的图文本信息和在时态时间线中发现的模式。此外,我们引入了基于结构的历史数据增强和逆向知识的整合,以强调LLMs对结构信息的认识,从而增强它们的推理能力。我们在多个广泛使用的数据集上进行了彻底的实验,并发现我们微调后的模型在多个指标上优于现有的基于嵌入的模型,实现了SOTA(最先进)的结果。我们还进行了足够的消融实验,以探索LLMs执行结构化时态知识推理任务时的关键影响因素。


TOP5

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

标题:
DeepSeekMoE架构打破专家知识重叠,性能省下60%计算量!

标签:
Tsinghua、NLP

推荐理由:
这篇论文同样来自清华大学,研究了在混合专家语言模型中实现极致专家特化的方法,这是对当前大型语言模型研究的一个重要补充,具有创新性和实用性。清华大学的品牌效应也会增加这篇论文的吸引力。

论文简介:
在大型语言模型的时代,混合专家(Mixture-of-Experts,MoE)架构是在扩展模型参数时管理计算成本的有前景的架构。然而,像GShard这样的传统MoE架构,它激活顶部 个中的 个专家,面临着确保专家专业化的挑战,即每个专家获得非重叠且集中的知识。为此,我们提出了DeepSeekMoE架构,以实现最终的专家专业化。它涉及两个主要策略:(1)将专家细分为 个,并从中激活 个,允许更灵活地组合激活的专家;(2)将 个专家作为共享专家进行隔离,旨在捕获共同知识并减少路由专家中的冗余。从具有20亿参数的适度规模开始,我们证明了DeepSeekMoE 20亿的性能与GShard 29亿相当,而后者的专家参数和计算量是前者的1.5倍。此外,DeepSeekMoE 20亿几乎接近其具有相同总参数数量的密集对应模型的性能,这为MoE模型设定了上限。随后,我们将DeepSeekMoE扩展到160亿参数,并展示它与LLaMA2 70亿的性能相当,仅使用大约40%的计算量。此外,我们将DeepSeekMoE扩展到1450亿参数的初步努力一致地验证了其相对于GShard架构的显著优势,并展示了其与DeepSeek 670亿的性能相当,仅使用28.5%(甚至可能是18.2%)的计算量。



举报

相关推荐

0 条评论