大模型评测工具&评测基准-CFANZ编程社区

大模型评测工具&评测基准

● 评测工具：用于评估模型的整体能力

● 评测基准：用于评估模型在特定任务方面的能力

评测集名称	核心维度	测试模型的描述	评测类型
MMLU	多模态语言理解	理解文本、图像和音频等多种模态数据之间的关系方面的能力	评测工具
AGIEVAL	通用人工智能	自然语言理解、机器翻译、视觉识别等多种不同任务方面的能力	评测工具
ARC	对话理解	理解对话场景中的意图和信息方面的能力	评测工具
CEval	自然语言推理	理解和推理自然语言中的逻辑关系方面的能力	评测工具
Race	阅读理解	理解文本的语义和结构方面的能力	评测工具
GSM8K	生成文本	在生成文本方面的能力	评测工具
SQuAD	问答	测试模型在回答文本中的问题方面的能力	评测工具
GLUE	自然语言理解	自然语言理解方面的能力	评测基准
CLUE	中文自然语言理解	中文自然语言理解方面的能力	评测基准
WMT	机器翻译	测试模型在机器翻译方面的能力	评测基准