0
点赞
收藏
分享

微信扫一扫

大模型论文 | 英伟达推出Star Attention,加速Transformer推理,内存减11倍


1. Star Attention: Efficient LLM Inference over Long Sequences

大模型论文 | 英伟达推出Star Attention,加速Transformer推理,内存减11倍_人工智能

基于Transformer的大规模语言模型(LLMs)在处理长序列时,由于自注意力机制的二次复杂性,既昂贵又缓慢。我们引入了Star Attention,这是一种两阶段的块稀疏近似方法,它通过跨多个主机分片注意力来提高计算效率,同时最小化通信开销。在第一阶段,上下文使用跨主机的块局部注意力并行处理。在第二阶段,查询和响应token通过序列全局注意力关注所有先前缓存的token。Star Attention能够无缝集成到大多数使用全局注意力训练的基于Transformer的LLMs中,最多可以减少11倍的内存需求和推理时间,同时保持95-100%的准确性。

论文: https://arxiv.org/pdf/2411.17116

2. ShowUI: One Vision-Language-Action Model for GUI Visual Agent

大模型论文 | 英伟达推出Star Attention,加速Transformer推理,内存减11倍_人工智能_02

构建图形用户界面(GUI)助手在提高人类工作流程生产力方面具有巨大潜力。虽然大多数代理是基于语言的,并依赖于包含丰富文本元信息的闭源API,但它们在像人一样感知UI视觉方面存在局限性,这突出了对GUI视觉代理的需求。在本文中,我们开发了一种数字世界的视觉-语言-动作模型,即ShowUI,它具有以下创新点:

UI引导的视觉token选择:通过将屏幕截图形式化为一个UI连接图来减少计算成本,自适应地识别其冗余关系,并作为自注意力模块中进行token选择的标准。

交织式视觉-语言-行动流:灵活统一了GUI任务中的多样化需求,能够有效地管理导航过程中的视觉-行动历史记录,或将多轮查询-行动序列与每张屏幕截图配对以提高训练效率。

小规模高质量的GUI指令跟随数据集:通过精心的数据整理和采用重采样策略来解决重要数据类型不平衡问题。

借助上述组件,使用256K数据集训练而成的轻量级2B模型ShowUI,在零样本屏幕截图定位上达到了强劲的75.1%准确率。它的UI引导token选择进一步减少了训练过程中33%的冗余视觉token,并且性能提升了1.4倍。

论文: https://arxiv.org/pdf/2411.17465

3. Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

大模型论文 | 英伟达推出Star Attention,加速Transformer推理,内存减11倍_transformer_03

为了加速多模态大规模语言模型(MLLMs)的推理过程,本研究重新审视了当前无需训练的token减少技术的研究现状。遗憾的是,我们发现现有方法的关键组件紧密交织在一起,它们之间的相互联系和影响对于比较、迁移和扩展来说仍然不够清晰。因此,我们提出了一种统一的“过滤-关联-压缩”范式,将token减少分解为pipeline中的三个不同阶段,在保持一致的设计目标和要素的同时允许独特的实现方式。最后,我们基于这一范式提供了一系列方法,在推理的不同阶段之间平衡速度与准确性。在10个基准测试上的实验结果表明,我们的方法可以达到高达82.4%的FLOPs减少,同时对性能的影响极小,并且超越了现有的无需训练的最佳方法。

论文: https://arxiv.org/pdf/2411.17686

4. MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

大模型论文 | 英伟达推出Star Attention,加速Transformer推理,内存减11倍_深度学习_04

作为通用人工智能(AGI)的一个重要方向,多模态大语言模型(MLLMs)已经引起了业界和学术界的广泛关注。基于预训练的大规模语言模型,这类模型进一步发展了令人印象深刻的多模态感知和推理能力,例如根据流程图编写代码或基于图像创作故事。在开发过程中,评估至关重要,因为它提供了直观的反馈和改进模型的指导。与仅针对单一任务(如图像分类)的传统训练-评估-测试范式不同,MLLMs的多功能性促进了各种新基准和评估方法的兴起。

在本文中,我们旨在全面概述MLLMs的评估,讨论四个关键方面:
1)按评估能力划分的基准类型总结,包括基础能力、模型自分析及扩展应用;
2)基准构建的一般过程,包含数据收集、标注以及注意事项;
3)由评判标准、度量指标和工具包组成的系统化评估方式;
4)未来基准的发展展望。本研究旨在为研究人员提供一个简便的方法来根据不同的需求有效评估MLLMs,并激励开发更好的评估方法,从而推动MLLMs研究的进步。

论文: https://arxiv.org/pdf/2411.15296

举报

相关推荐

0 条评论