0
点赞
收藏
分享

微信扫一扫

AIGC 的底层技术:引领未来生成内容的革命

近年来,人工智能生成内容(AIGC)在计算机科学界之外也引起了广泛关注,整个社会开始对大型科技公司如 ChatGPT 和 DALL-E-2 开发的各种内容生成产品产生兴趣。AIGC 是指使用先进的生成式人工智能(GAI)技术生成的内容,而不是由人类作者创作的内容,这可以在短时间内自动生成大量内容。例如,ChatGPT 是由 OpenAI 开发的一种语言模型,用于构建对话式人工智能系统,能够高效地理解和回应人类语言输入。此外,DALL-E-2 是另一个由 OpenAI 开发的最先进的 GAI 模型,能够根据文本描述在几分钟内创建独特且高质量的图像,例如“以照片写实风格骑马的宇航员”,如下图所示。随着 AIGC 的显著成就,许多人认为这将是人工智能的新时代,并将对整个世界产生重大影响。

AIGC 的底层技术:引领未来生成内容的革命_语言模型

从技术上讲,AIGC 是指在给定能够帮助教授和指导模型完成任务的人类指令的情况下,利用生成式人工智能(GAI)算法生成符合指令要求的内容。这一生成过程通常包括两个步骤:从人类指令中提取意图信息,并根据提取的意图生成内容。然而,包含上述两个步骤的 GAI 模型范式并非完全新颖,正如之前的研究所示。与先前工作相比,近年来 AIGC 的核心进展在于训练更复杂的生成模型,使用更大的基础模型架构,并利用广泛的计算资源。例如,GPT-3 的主要框架与 GPT-2 保持一致,但预训练数据规模从 WebText(38GB)增长到 CommonCrawl(过滤后为 570GB),基础模型规模从 1.5B 增长到 175B。因此,GPT-3 在各种任务上(如人类意图提取)的泛化能力优于 GPT-2。

除了数据量和计算能力增加带来的好处之外,研究人员还在探索将新技术与生成式人工智能(GAI)算法相结合的方法。例如,ChatGPT 利用来自人类反馈的强化学习(RLHF)来确定给定指令的最合适响应,从而随着时间的推移提高模型的可靠性和准确性。这种方法使 ChatGPT 能够在长对话中更好地理解人类的偏好。同时,在计算机视觉领域,Stability.AI 在2022年提出的稳定扩散也在图像生成方面取得了巨大成功。与之前的方法不同,生成扩散模型通过控制探索与利用之间的权衡,帮助生成高分辨率图像,从而在生成图像的多样性和训练数据的相似性之间实现和谐的结合。

通过结合这些进展,模型在 AIGC 任务中取得了显著进展,并被应用于包括艺术、广告和教育在内的各个行业。在不久的将来,AIGC 将继续是机器学习研究的一个重要领域。因此,有必要对过去的研究进行广泛回顾,并确定该领域的开放问题。本综述是第一个专注于 AIGC 领域核心技术和应用的综述。

生成式人工智能的历史

生成模型在人工智能领域有着悠久的历史,早在20世纪50年代就开发了隐马尔可夫模型(HMM)和高斯混合模型(GMM)。这些模型生成了如语音和时间序列等序列数据。然而,直到深度学习的出现,生成模型的性能才得到了显著提升。在早期的深度生成模型中,不同领域总体上没有太多重叠。在自然语言处理(NLP)中,生成句子的传统方法是使用 N-gram 语言模型来学习词语分布,然后搜索最佳序列。然而,这种方法无法有效适应长句子。为了解决这个问题,后来引入了用于语言建模任务的循环神经网络(RNN),允许建模相对较长的依赖关系。随后,长短期记忆网络(LSTM)和门控循环单元(GRU)被开发出来,这些方法利用门控机制在训练期间控制记忆。这些方法能够关注样本中的约 200 个标记,相较于 N-gram 语言模型,取得了显著的进步。

同时,在计算机视觉(CV)领域,在深度学习方法出现之前,传统的图像生成算法使用了纹理合成和纹理映射等技术。这些算法基于手工设计的特征,无法生成复杂和多样化的图像。2014年,生成对抗网络(GAN)首次提出,这是该领域的一个重要里程碑,因为它在各种应用中取得了令人印象深刻的成果。变分自编码器(VAEs)和扩散生成模型[等其他方法也被开发出来,以更细粒度地控制图像生成过程,并能够生成高质量图像。

各个领域生成模型的发展路径各不相同,但最终交汇在一起:即Transformer架构。Transformer由Vaswani等人于2017年提出用于NLP任务,随后被应用于CV领域,并成为许多领域生成模型的主流架构。在NLP领域,许多著名的大型语言模型(如BERT和GPT)采用Transformer架构作为其主要构建模块,相较于之前的LSTM和GRU构建模块,具有优势。在CV领域,视觉Transformer(ViT)和Swin Transformer进一步将Transformer架构与视觉组件结合,使其能够应用于基于图像的下游任务。除了Transformer对单一模态的改进外,这种交汇还使得来自不同领域的模型能够融合在一起用于多模态任务。一个多模态模型的例子是CLIP。CLIP是一个联合视觉-语言模型,将Transformer架构与视觉组件结合,使其能够在大量文本和图像数据上进行训练。由于它在预训练期间结合了视觉和语言知识,它还可以作为多模态提示生成中的图像编码器。总之,基于Transformer模型的出现革命性地改变了人工智能生成,开创了大规模训练的可能性。

最近几年,研究人员还开始引入基于这些模型的新技术。例如,在自然语言处理领域,人们有时候会选择少样本提示,而不是微调,少样本提示指的是在提示中包含从数据集中选取的一些示例,以帮助模型更好地理解任务要求。在视觉语言领域,研究人员经常将视觉和语言信息整合起来。具有自我监督对比学习目标的特定于模态的模型,以提供更鲁棒的表示。未来,随着AIGC越来越重要,越来越多的技术将被引入,赋予该领域充满活力。

AIGC的核心

Transformer是许多最先进模型的主干架构,例如GPT-3、DALL-E-2、Codex和Gopher。它最初被提出是为了解决传统模型(如RNNs)在处理可变长度序列和上下文感知方面的局限性。Transformer架构主要基于自注意力机制,使模型能够关注输入序列中的不同部分。Transformer由编码器和解码器组成。编码器接受输入序列并生成隐藏表示,而解码器接受隐藏表示并生成输出序列。编码器和解码器的每一层都包含多头注意力和前馈神经网络。多头注意力是Transformer的核心组件,它学习根据其相关性分配不同权重给标记。这种信息路由方法使得模型更擅长处理长期依赖性,因此,在各种NLP任务中提高了性能。Transformer的另一个优点是其架构使其高度可并行化,并且允许数据胜过归纳偏见。这种性质使得Transformer非常适合大规模预训练,使得基于Transformer的模型能够适应不同的下游任务。

预训练语言模型。自从Transformer架构的引入以来,它已经成为自然语言处理领域的主流选择,因为它具有并行性和学习能力。一般来说,基于Transformer的预训练语言模型可以根据它们的训练任务分为两种类型:自回归语言建模和掩码语言建模。给定一个由多个标记组成的句子,掩码语言建模的目标,例如BERT  和RoBERTa ,是预测在上下文信息下掩码标记的概率。掩码语言建模的最著名例子是BERT,它包括掩码语言建模和下一个句子预测。

AIGC 的底层技术:引领未来生成内容的革命_语言模型_02

人工智能的生成

最近,预训练语言模型的使用已成为自然语言处理领域的主流技术。一般来说,当前最先进的预训练语言模型可以被分类为掩码语言模型(编码器)、自回归语言模型(解码器)和编码器-解码器语言模型。解码器模型广泛用于文本生成,而编码器模型主要应用于分类任务。通过结合这两种结构的优势,编码器-解码器模型可以利用上下文信息和自回归特性来提高在各种任务中的性能。本调查的主要重点是生成模型。在接下来的章节中,我们将深入探讨解码器和编码器-解码器架构的最新进展。

过去十年来,具有神经网络的深度生成式人工智能模型主导了机器学习领域,其崛起可归因于2012年的ImageNet竞赛,这导致了对创建更深层次和更复杂模型的竞赛。这种趋势也在自然语言理解领域得到体现,像BERT和GPT-3这样的模型已经被开发出来,并拥有大量参数。然而,不断增长的模型规模和复杂性,以及训练和部署所需的成本和资源,对于在实际环境中的实际部署提出了挑战。核心挑战在于效率,可以将其分解如下:

1. 推断效率:这涉及将模型用于推断的实际考虑,即为给定的输入计算模型的输出。推断效率主要与模型的大小、速度以及推断过程中的资源消耗(例如磁盘和RAM使用)有关。

2. 训练效率:这涵盖了影响模型训练速度和资源需求的因素,如训练时间、内存占用和跨多个设备的可伸缩性设备它还可能包含关于在给定任务上实现最佳性能所需的数据量的考虑。

总结

本文概述了AIGC的历史和最新进展。此外,我们讨论了生成式人工智能的历史,AIGC中常用的技术。本文的主要目标是为读者提供对生成式人工智能最新发展和未来挑战的全面理解。我们对AI的生成进行分析,旨在区分当代生成式人工智能模型与它们的前身。最终,我们希望这项调查能帮助读者更深入地了解这一领域。


举报

相关推荐

0 条评论