文章目录
在本文中,我们将介绍大语言模型三种基础能力的评测方法,包括语言生成、知识利用以及复杂推理。
语言建模
语言生成(LanguageGeneration)能力是大语言模型执行各种任务的重要基础。现有的语言生成任务主要可以分为三个类别,包括语言建模、条件文本生成以及代码合成。尽管从传统的自然语言处理视角来看,代码合成并不属于典型的任务范畴,但是目前主流的大语言模型已经将代码合成能力作为一项重要的性能指标,因此本部分的内容仍然将代码合成任务纳入了语言生成能力的范围之内。
作为语言模型最基础的能力,语言建模指的是基于给定的背景词元来预测接下来会出现的词元的任务,这一过程需要模型能够具备语言理解与生成能力。研究者们常采用的评测数据集包括PennTreebank、WikiText-103、LAMBADA 和 The Pile 等。评估模型语言建模性能的关键指标是困惑度。通常来说,大语言模型在这些评估数据集上的性能都显著优于以往的语言模型。值得注意的是,大语言模型在语言建模任务上的性能提升往往遵循扩展法则,即随着模型参数量的不断增加,其在语言建模任务上的表现也会相应提升。
基础/高级能力对应的代表性评测任务与评测数据集