0
点赞
收藏
分享

微信扫一扫

【AI周报】免费、开源的TorchStudio来了;CVPR2022放榜;微软做出千层Transformer

cnlinkchina 2022-03-11 阅读 29

【AI周报】免费、开源的TorchStudio来了;CVPR2022放榜;微软做出千层Transformer


文章目录


一. AI周报

1. 免费开源的PyTorch IDE来了!模型、数据集、可视化全都有!

经过数月的封闭测试后,TorchStudio 现在终于来了。

近日,开源软件爱好者、音频编辑软件Steinberg SpectraLayers的创建者Robin Lobel发布了一个免费、开源的PyTorch IDE,名为TorchStudio。

这个IDE有啥特点呢?根据官网显示,它的特征可总结为:数千个数据集、上千种模型,进行可视化,灵活可扩展。

数据集:浏览和加载来自 TorchVision、TorchAudio 或 Hugging Face Hub 的数千个数据集(即将推出),包括CIFAR10、CIFAR100、Caltech101、CelebA等。
在这里插入图片描述

模型:浏览和训练来自 TorchVision、TorchAudio、PyTorch Hub (即将推出)或 Hugging Face Hub (即将推出)的数千个模型,包括大家熟悉的AlexNet、DenseNet、GoogLeNet等。

用户还可以在本地或远程存储数据集和训练模型。此外TorchStudio 还与 AWS、Azure、Google Cloud 等兼容。
在这里插入图片描述

在可视化方面,无论用户输入/输出的数量和张量格式如何,都可以按需显示数据集样本:

在这里插入图片描述

TorchStudio还能生成有关整个数据集的统计报告;对模型进行可视化,以揭示内部节点如何连接以及节点之间的张量大小如何变化:

用户还能设置网络参数和超参数,实时监控损失和度量曲线并输出预测:
此外,TorchStudio还能对训练模型进行比较,帮助用户快速确定最佳模型:

2.CVPR 2022放榜!2067篇论文被接收

作为人工智能领域的顶级会议,CVPR 每年都会吸引大量研究机构和高校参会,投稿量在去年 11 月临近 deadline 时迅速超过了一万——上届 CVPR 2021 的有效投稿数还「仅有」7500 篇。创新高的投稿数引发了审稿压力,截止 1 月 25 日,共有 6427 位审稿人给出了 25801 个评审意见,包括 2104 位紧急审稿人的 3066 个紧急评审意见。

今天上午,CVPR 官方放出了今年大会接收的论文 ID。据统计,有 2067 篇论文被接收。

论文接收 ID 列表:

https://drive.google.com/file/d/15JFhfPboKdUcIH9LdbCMUFmGq_JhaxhC/view

在 meta review 之后,本届的最终论文接收结果将在一到两天后公布。

3.1000层的Transformer?微软给他做出来了!

昨日出炉的论文《DeepNet: Scaling Transformers to 1,000 Layers》在研究社区引起了热议,作者来自微软亚洲研究院。

原因是该研究直接把Transformer深度提升到1000层!

下面让我们看下这篇研究说了什么。

近年来,大规模 Transformer模型出现了这样一种趋势:随着模型参数从数百万增加至数十亿甚至数万亿,性能相应地实现了显著提升。大规模模型在一系列任务上都取得了SOTA性能,并在小样本和零样本学习设置下展现出了令人瞩目的能力。如下图1所示,尽管参数量已经很大了,但Transformer模型的深度(depth)却受到了训练不稳定的限制。
在这里插入图片描述
Nguyen和Salazar (2019)发现,基于post-norm连接(Post-LN),pre-norm 残差连接(Pre-LN)能够提升 Transformer的稳定性。但是,Pre-LN在底层的梯度往往大于顶层,因而导致与 Post-LN相比性能下降。为了缓解这一问题,研究人员一直努力通过更好的初始化或更好的架构来改进深度Transformer的优化。这些方法可以使多达数百层的Transformer模型实现稳定化,然而以往的方法没有能够成功地扩展至1000层。

微软亚研在一篇新论文《DeepNet: Scaling Transformers to 1,000 Layers》中终于将Transformer的深度扩展到了1000层。
在这里插入图片描述
研究者的目标是提升 Transformer 模型的训练稳定性,并将模型深度进行数量级的扩展。为此,他们研究了不稳定优化的原因,并且发现爆炸式模型更新是造成不稳定的罪魁祸首。基于这些观察,研究者在残差连接处引入了一个新的归一化函数 —— DEEPNORM,它在将模型更新限制为常数时具有理论上的合理性。这一方法简单但高效,只需要改变几行代码即可。最终,该方法提升了Transformer模型的稳定性,并实现了将模型深度扩展到了1000多层。

此外,实验结果表明,DEEPNORM 能够将 Post-LN 的良好性能和Pre-LN的稳定训练高效结合起来。研究者提出的方法可以成为Transformers的首选替代方案,不仅适用于极其深(多于1000层)的模型,也适用于现有大规模模型。值得指出的是,在大规模多语言机器翻译基准上,文中 32 亿参数量的 200 层模型(DeepNet)比120亿参数量的48层SOTA模型(即 Facebook AI的M2M模型)实现了 5 BLEU值提升。

4.参数量翻了10倍!Meta AI 祭出100亿参数的“新SEER”为元宇宙铺路

不久前,Meta AI 宣称,其于去年3月提出的10亿参数自监督模型 SEER (SElf-supERvised)又取得了新突破:新的 SEER 参数量翻了10倍,达到了100亿参数,可以取得更优秀、更公平的性能表现!

以下我们暂且称新的 SEER 模型为“SEER 10B”(一个牛逼不足以形容 Meta AI 在行动上落实自监督的野心,手动狗头)。

根据 Meta AI 的团队介绍,他们将 SEER 10B 模型在50+个基准与多个不同未标记数据集上进行了测试。其中,SEER 10B 不仅在 ImageNet 上取得了高达 85.8% 的准确率(排名第一),与原先只有 10 亿参数量的 SEER (84.2%)相比性能提升了 1.6%。

此外,SEER 10B 在性别、肤色、年龄等三个公平基准上获得了更出色的识别效果,明显优于监督模型。
在这里插入图片描述

二. AAAI 2022 优质论文分享

1. 基于数据分布生成的可预测概念漂移适应

论文题目:

DDG-DA: Data Distribution Generation for Predictable Concept Drift Adaptation

论文摘要:

在时序数据中,由于环境的不稳定性,数据分布常常会随时间变化且不可预测。这种现象被称为概念漂移,它导致在历史数据上训练的模型在概念漂移后性能下降。为了应对这一问题,前人的工作会检测概念漂移是否发生,然后调整模型以适应最近的数据分布。在很多实际场景中,环境的变化是有规律可预测的,因此可以对概念漂移的未来趋势建模,而不仅让模型适应最近的数据分布。我们提出了一种新方法来预测数据分布未来的变化,然后利用预测的数据分布生成新的训练数据来学习模型以适应概念漂移,最终提升模型性能。我们在股价、电力负荷和日照辐照度三个真实场景预测任务和多个模型上进行了实验验证并得到了显著提升。

代码地址:

https://github.com/microsoft/qlib/tree/main/examples/benchmarks_dynamic/DDG-DA

论文开创性突破与核心贡献:

是第一个通过建模数据分布变化来应对可预测概念漂移的方法,并在同类方法中取得了最佳性能。

2. 平面布局的层次化生成式建模

论文题目:

Coarse-to-Fine Generative Modeling for Graphic Layouts

论文摘要:

平面布局的自动生成,即预测布局中各个元素的位置和大小,是人工智能领域的新兴话题。本文将平面设计中的“区域”概念引入布局生成,提出了一种层次化的模型。具体来说,我们将 VAE 中的解码器分解为两个步骤。其中,第一个步骤预测区域,每个区域都可以看作是一个简单的布局且比整体布局包含更少的元素,第二个步骤基于生成的区域,预测区域中每个元素的具体位置和大小。定性和定量实验证明,本文提出的方法优于现有方法,其优势在复杂布局生成上尤为突出。

论文开创性突破与核心贡献:

尽管人工智能在自然语言,图像,视频等多个传统领域取得了耀眼的成果,其在众多非传统领域的表现还有待研究。本文探索了人工智能在平面布局的自动生成这个新兴任务上的的可能性,并在多个基准数据集上取得了最佳效果。

3. 用于在线视频实例分割的混合实例觉知时序融合方法

论文题目:

Hybrid Instance-aware Temporal Fusion for Online Video Instance Segmentation

论文摘要:

本文提出了一种基于实例的时序内容融合方法,用于在线视频实例分割框架。首先,我们利用图像分割的一种表示,基于实例的全局编码和 CNN 特征图来表示实例级和像素级特征。基于这种表示,我们引入了一种无需裁剪的时序融合方法来对视频帧之间的时间一致性进行建模。具体地,我们在实例编码中对全局实例信息进行编码,并通过实例编码和 CNN 特征图之间的混合注意力机制建模帧间的上下文融合。利用学习到的混合时间一致性,我们能够直接检索和维护跨帧的实例身份,去除了先前方法中复杂的逐帧实例匹配方案。在 Youtube-VIS-19/21 数据集,我们的模型在所有在线视频实例分割方法中取得了最佳性能。

论文开创性突破与核心贡献:

用于实时视频实力分割的高效时序融合方法,在所有在线视频实例分割方法中取得了最佳性能。

举报

相关推荐

0 条评论